【ITBEAR】9月2日消息,近日,阿里云通義千問宣布推出全新升級的第二代視覺語言模型Qwen2-VL,該模型在視覺和語言理解能力上實現了質的飛躍。
與上一代相比,Qwen2-VL展現出了更為出色的性能。它不僅能夠輕松解讀各種分辨率和尺寸的圖片,更在多項基準測試中,包括DocVQA、RealWorldQA和MTVQA,取得了令人矚目的全球領先成績。值得一提的是,該模型還具備了對長視頻內容的深度理解能力,可以處理超過20分鐘的視頻,并支持基于視頻的問答、對話以及內容創作等多種應用場景。
據ITBEAR了解,Qwen2-VL此次推出了2B和7B兩種尺寸的模型,同時還提供了量化版本以供選擇。此外,旗艦級的Qwen2-VL-72B模型也已通過API形式在阿里云百煉平臺上開放,供用戶直接調用,大大提升了使用的便捷性。
在功能方面,Qwen2-VL還展現了強大的視覺智能體實力。它能夠自主操作手機和機器人,根據所處的視覺環境和文字指令進行智能化的自動操作,這一功能的加入無疑將極大地拓展模型的應用范圍。
值得一提的是,Qwen2-VL還具備多語言文本理解能力,可以處理包括中文、英文、多數歐洲語言、日語、韓語、阿拉伯語以及越南語等在內的多種語言。這一特性將極大地提升其在國際市場中的競爭力。
在技術層面,Qwen2-VL延續了ViT加Qwen2的經典串聯結構,并在此基礎上進行了多項創新。所有尺寸的模型都采用了統一的600M規模ViT,這使得模型能夠同時支持圖像和視頻的輸入。為了進一步提升模型的感知和理解能力,團隊還實現了對原生動態分辨率的全面支持,并引入了創新的多模態旋轉位置嵌入(M-ROPE)方法。