【ITBEAR】8月31日消息,阿里通義千問近日發布了其第二代視覺語言模型Qwen2-VL,標志著人工智能領域的一大進步。該模型的旗艦版Qwen2-VL-72B已經正式上線阿里云百煉平臺,供廣大開發者和企業應用。
據ITBEAR了解,Qwen2-VL在多模態模型領域取得了顯著成就,甚至在多個權威測評中超越了GPT-4o和Claude3.5-Sonnet等知名閉源模型。特別是在文檔理解方面,Qwen2-VL展現出了明顯的優勢,顯示出強大的多模態理解能力。
該模型的出色表現不僅體現在靜態圖像的理解上,它還能理解20分鐘以上的長視頻,并支持基于視頻的問答、對話和內容創作等多種應用。這一功能將極大地豐富視覺語言模型在實際場景中的應用范圍。
此外,Qwen2-VL還具備視覺智能體能力,可以集成到手機、機器人等設備中,根據視覺環境和文字指令進行自動操作。這一特點使得該模型在未來的智能設備領域具有廣闊的應用前景。
值得一提的是,Qwen2-VL還能理解圖像視頻中的多語言文本,包括中文、英文、大多數歐洲語言、日語、韓語、阿拉伯語和越南語等,這為其在國際化的應用場景中提供了更多可能性。
阿里通義千問團隊從多個方面對模型能力進行了全面評估,結果顯示Qwen2-VL-72B在大部分指標上都達到了行業最優水平。用戶現在即可通過阿里云百煉平臺輕松調用Qwen2-VL-72B的API,體驗其強大的視覺語言處理能力。