【ITBEAR】蘋果公司近期為其多模態大模型MM推出了1.5版本,新版本在延續前代MM1數據驅動訓練原則的基礎上,著重研究了混合不同類型數據對模型性能的影響。相關模型文檔已在Hugging Face上發布,并附有論文鏈接。
MM1.5版本提供了10億至300億多種參數規模的選擇,具備圖像識別和自然語言推理能力。蘋果的研發團隊在新版本中改進了數據混合策略,顯著增強了模型在多文本圖像理解、視覺引用與定位以及多圖像推理方面的表現。
根據參考論文,蘋果在MM1.5的持續預訓練階段引入了高質量的OCR數據和合成圖像描述,大幅提升了模型對富含文本內容的圖像的理解能力。研究團隊還在監督式微調階段分析了不同數據類型對模型性能的影響,并優化了視覺指令微調數據的混合方式,使模型實現了更高的效率,即便是小規模的模型(10億、30億參數版本)也能展現出優秀的性能。
蘋果公司此次還推出了MM1.5-Video模型,專門用于視頻理解,以及MM1.5-UI模型,專注于移動設備用戶界面的理解。MM1.5-UI模型未來有望成為iOS背后的“蘋果牌”AI,它能夠處理各種視覺引用與定位任務,總結屏幕上的功能,或者通過對話與用戶進行交互。