【ITBEAR】蘋果公司近期宣布,其多模態AI大模型MM1.5正式推出,該模型基于前代MM1架構進行升級,擁有高達300億的參數規模。
MM1.5模型繼續堅持數據驅動的訓練原則,深入探索了不同訓練周期中混合數據對模型性能的影響,相關模型文檔已在Hugging Face平臺發布。
此次推出的MM1.5模型提供了從10億到300億的多種參數規模選擇,具備圖像識別與自然語言推理的能力。
在新版本中,蘋果研發團隊對數據混合策略進行了優化,顯著提升了模型在多文本圖像理解、視覺引用與定位以及多圖像推理等方面的性能。
據相關論文介紹,MM1.5在持續預訓練階段引入了高質量的OCR數據和合成圖像描述,大幅提高了模型對包含大量文本的圖像的理解能力。
研究人員在監督式微調階段對不同數據類型對模型表現的影響進行了深入分析,優化了視覺指令微調數據的混合方式,使得即便是小規模的模型版本也能展現出出色的性能,實現了更高的效率。
蘋果公司還推出了專門用于視頻理解的MM1.5-Video模型以及專門處理移動設備用戶界面(UI)理解的MM1.5-UI模型。
MM1.5-UI模型未來有望成為iOS背后的核心AI技術,能夠處理各種視覺引用與定位任務,總結屏幕上的功能,甚至通過與用戶的對話進行交互。