【ITBEAR科技資訊】5月26日消息,微軟最近推出了其小語言AI模型家族(SLM)的全新成員——“Phi-3-vision”。此款模型以“視覺能力”為主打特色,不僅能理解圖文內容,還被譽為能在移動平臺上實現流暢高效的運行。
Phi-3-vision模型,作為微軟Phi-3系列的首款多模態模型,其文字理解能力源于Phi-3-mini,并繼承了其輕量化特性,非常適合在移動設備或嵌入式系統中運行。該模型擁有42億的參數量,這一數字超過了Phi-3-mini的3.8億,但低于Phi-3-small的70億。其上下文長度達到了128k token,訓練周期從2024年2月持續至4月。
據ITBEAR科技資訊了解,Phi-3-vision模型的最大亮點在于其“圖文識別能力”。它不僅能夠理解現實世界中圖片的含義,還能迅速識別和提取圖片中的文字信息。微軟表示,這款模型在辦公場合中表現出色,特別是在識別和理解圖表及方塊圖方面有著出色的能力。它可以根據用戶輸入的信息進行推理,并為企業提供有價值的戰略建議,其效果甚至可與大型模型相媲美。
在模型訓練方面,微軟強調Phi-3-vision是通過多種類型的圖片和文字數據進行訓練的,這些數據來源于一系列經過嚴格篩選的公開內容,如教育材料、代碼、圖文標注數據等,從而確保了模型能夠處理多樣化的輸入。同時,微軟也注重用戶隱私的保護,在訓練數據中嚴格排除了任何個人信息。
性能方面,微軟提供了Phi-3-vision與其他競品模型如字節跳動的Llama3-Llava-Next(8B)、微軟研究院與其他機構合作的LlaVA-1.6(7B)以及阿里巴巴的通義千問QWEN-VL-Chat等模型的對比圖表。結果顯示,Phi-3-vision在多個測試項目中均表現出色。
目前,微軟已經將Phi-3-vision模型上傳至Hugging Face平臺。