阿里云通義千問(wèn)再升級(jí)：Qwen-VL視覺理解模型推出Max版本，多模態(tài)大模型研究獲突破-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > 財(cái)經(jīng)視界 >正文

阿里云通義千問(wèn)再升級(jí)：Qwen-VL視覺理解模型推出Max版本，多模態(tài)大模型研究獲突破

發(fā)布時(shí)間：2024-01-26 13:49:50 作者：網(wǎng)友整理

【ITBEAR科技資訊】1月26日消息，阿里云今日宣布在多模態(tài)大模型研究領(lǐng)域取得顯著進(jìn)展。據(jù)透露，通義千問(wèn)的視覺理解模型Qwen-VL已經(jīng)進(jìn)行了重要升級(jí)，繼之前的Plus版本后，再次推出了更為強(qiáng)大的Max版本。這一升級(jí)版模型在視覺推理和中文理解方面展現(xiàn)出了更為出色的能力，可以識(shí)別圖片中的人物、回答問(wèn)題、進(jìn)行創(chuàng)作以及編寫代碼。在多個(gè)權(quán)威測(cè)評(píng)中，Qwen-VL-Plus和Qwen-VL-Max均取得了優(yōu)異成績(jī)，整體性能與GPT-4V和Gemini Ultra不相上下。

限時(shí)免費(fèi)！通義千問(wèn)多模態(tài)大模型重磅升級(jí)：性能趕超GPT-4V和谷歌Gemini

在各項(xiàng)評(píng)估中，Qwen-VL的兩個(gè)升級(jí)版模型表現(xiàn)搶眼。它們?cè)贛MMU、MathVista等測(cè)評(píng)中遠(yuǎn)超業(yè)內(nèi)其他開源模型，尤其在文檔分析(DocVQA)和中文圖像相關(guān)任務(wù)(MM-Bench-CN)上，更是超越了GPT-4V，達(dá)到了業(yè)界領(lǐng)先水平。這些模型不僅能夠準(zhǔn)確描述和識(shí)別圖片中的信息，還能根據(jù)圖片內(nèi)容進(jìn)行推理和創(chuàng)作，甚至具備了對(duì)畫面指定區(qū)域進(jìn)行問(wèn)答的視覺定位能力。

在視覺推理方面，Qwen-VL-Plus和Qwen-VL-Max展現(xiàn)出了強(qiáng)大的能力。它們能夠理解流程圖等復(fù)雜形式的圖片，分析復(fù)雜圖標(biāo)，并且能夠看圖做題、看圖作文、看圖寫代碼。在圖像文本處理方面，升級(jí)版Qwen-VL的中英文文本識(shí)別能力也得到了顯著提升，支持處理百萬(wàn)像素以上的高清分辨率圖和極端寬高比的圖像，既能完整復(fù)現(xiàn)密集文本，也能從表格和文檔中提取所需信息。

限時(shí)免費(fèi)！通義千問(wèn)多模態(tài)大模型重磅升級(jí)：性能趕超GPT-4V和谷歌Gemini

Qwen-VL-Max看圖做題

據(jù)ITBEAR科技資訊了解，多模態(tài)是當(dāng)前大模型領(lǐng)域最具共識(shí)的發(fā)展方向。過(guò)去半年來(lái)，OpenAI、谷歌等科技巨頭紛紛推出了自己的多模態(tài)模型。阿里云也在2023年8月發(fā)布了具備圖文理解能力的Qwen-VL模型，并將其開源。該模型在同期表現(xiàn)中遠(yuǎn)超同等規(guī)模的通用模型，展現(xiàn)了強(qiáng)大的實(shí)力。

限時(shí)免費(fèi)！通義千問(wèn)多模態(tài)大模型重磅升級(jí)：性能趕超GPT-4V和谷歌Gemini

Qwen-VL-Max復(fù)現(xiàn)密集文本

視覺作為多模態(tài)能力中最重要的模態(tài)之一，占據(jù)了人類感知和認(rèn)知世界信息的80%。通義千問(wèn)的視覺語(yǔ)言模型基于通義千問(wèn)LLM開發(fā)，通過(guò)將視覺表示學(xué)習(xí)模型與LLM對(duì)齊，為AI賦予了理解視覺信息的能力。這一創(chuàng)新在大語(yǔ)言模型的基礎(chǔ)上開辟了一扇視覺的“窗”，為AI帶來(lái)了更廣闊的應(yīng)用前景。

與LLM相比，多模態(tài)大模型在應(yīng)用方面擁有更大的想象力。研究者們正在探索將多模態(tài)大模型與自動(dòng)駕駛場(chǎng)景相結(jié)合，為實(shí)現(xiàn)“完全自動(dòng)駕駛”尋找新的技術(shù)路徑。同時(shí)，多模態(tài)模型還可以被部署到手機(jī)、機(jī)器人、智能音箱等端側(cè)設(shè)備中，讓智能設(shè)備能夠自動(dòng)理解物理世界的信息。此外，基于多模態(tài)模型開發(fā)的應(yīng)用還可以輔助視力障礙群體的日常生活，為他們提供更多的便利。

目前，Qwen-VL-Plus和Qwen-VL-Max已經(jīng)限時(shí)免費(fèi)開放給用戶使用。用戶可以在通義千問(wèn)的官網(wǎng)和APP上直接體驗(yàn)Max版本模型的能力，也可以通過(guò)阿里云的靈積平臺(tái)(DashScope)調(diào)用模型的API進(jìn)行使用。

分享到：

標(biāo)簽：阿里云通義千問(wèn)再升級(jí)：Qwen-VL視覺理解模型推出Max版本多模態(tài)大模型研究獲突破通義千問(wèn) 企業(yè)動(dòng)態(tài)