日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52007
  • 待審:47
  • 小程序:12
  • 文章:1052527
  • 會員:766

2024年5月17日,智源研究院舉辦大模型評測發布會,正式推出科學、權威、公正、開放的智源評測體系,發布并解讀國內外140余個開源和商業閉源的語言及多模態大模型全方位能力評測結果。

本次智源評測,分別從主觀、客觀兩個維度考察了語言模型簡單理解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力;針對多模態模型則主要評估了多模態理解和生成能力。

●語言模型

在中文語境下,國內頭部語言模型的綜合表現已接近國際一流水平,但存在能力發展不均衡的情況。

●多模態模型

理解圖文問答任務上,開閉源模型平分秋色,國產模型表現突出。

在中文語境下,國產大模型文生圖能力與國際一流水平差距較小。

文生視頻能力上,對比各家公布的演示視頻長度和質量,Sora有明顯優勢,其他開放評測的文生視頻模型中,國產模型PixVerse表現優異。

由于安全與價值觀對齊是模型產業落地的關鍵,但海外模型與國內模型在該維度存在差異,因此語言模型主客觀評測的總體排名不計入該單項分數

語言模型主觀評測結果顯示,在中文語境下,字節跳動豆包Skylark2、OpenAI GPT-4位居第一、第二,國產大模型更懂中國用戶。在語言模型客觀評測中,OpenAI GPT-4、百川智能Baichuan3位居第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。

圖片 1.png

多模態理解模型客觀評測結果顯示,圖文問答方面,阿里巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先后領先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊隨其后。

圖片 2.png

多模態生成模型文生圖評測結果顯示,OpenAI DALL-E3位列第一,智譜華章CogView3、meta-Imagine分居第二、第三,百度文心一格、字節跳動doubao-Image次之。

多模態生成模型文生視頻,OpenAI Sora、Runway、愛詩科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。

圖片 3.png

注:

文生圖模型的客觀評測指標與主觀感受差異巨大,有失效的跡象,因此排名以主觀評測為準;Mdjourney基本無法理解中文提示詞,因此排名靠后;僅使用其官方公布的prompts和視頻片段與其他模型生成的視頻進行對比評測,評測結果存在一定的偏差。

首次聯合權威教育機構進行大模型K12學科測試

當前,大模型的發展具備了通用性,在邏輯推理能力上有顯著提升,日趨接近人腦的特征。因此,在海淀區教委支持下,智源研究院聯合與海淀區教師進修學校對齊學生測驗方式,考察大模型與人類學生的學科水平差異,其中,答案不唯一的主觀題,由海淀教師親自評卷。

圖片 4.png

智源評測發現,模型在綜合學科能力與海淀學生平均水平仍有差距,普遍存在文強理弱的情況,并且對圖表的理解能力不足,大模型未來有很大的提升空間。

圖片 5.png

北京市海淀區教師進修學校校長姚守梅解讀大模型K12學科測試結果時指出,在語文、歷史等人文學科的考試中,模型欠缺對文字背后的文化內涵以及家國情懷的理解。面對歷史地理綜合題時,模型并不能像人類考生一樣有效識別學科屬性。相較于簡單的英語題,模型反而更擅長復雜的英語題。解理科題目時,模型會出現以超出年級知識范圍外的方法解題的情況。當出現無法理解的考題時,模型依然存在明顯的“幻覺”

系統化構建文生視頻模型主觀評價體系

中國傳媒大學智能媒體計算實驗室負責人史萍教授表示,相較文本,視頻的主觀評價復雜度極高。自動化指標無法完全捕捉模型生成的質量,更無法對生成視頻的真實性、圖文語義一致性等進行量化。因此,需要系統化構建針對文生視頻模型的主觀評價體系

圖片 6.png

該評價體系,由智源研究院與中國傳媒大學基于雙方在大模型評測領域和視頻質量評價領域的豐富科研成果與實踐經驗共同建立,在圖文一致性、真實性、視頻質量、美學質量四大方面給出多維度評分,為AIGC視頻生成技術的應用及發展提供參考。

科學權威公正開放的智源評測體系

依托科技部“人工智能基礎模型支撐平臺與評測技術”工信部“大模型公共服務平臺”項目,智源研究院與10余家高校和機構聯合開展大模型評測方法與工具研發。

2023年6月,由智源研究院與多個高校團隊共建的Flageval大模型評測平臺上線,迄今為止已完成了1000多次覆蓋全球多個開源大模型的評測,并持續發布評測結果,廣泛地積累了國際領先的評測技術。

開放服務

1智源Flag eval天秤大模型評測平臺

2 與Hugging Face社區合作的開放中文大語言模型評測榜單 (Open Chinese LLM Leaderboard)

3 首個借助大模型合成數據的多元異質信息檢索評估基準--智源AirBench

智源研究院牽頭成立了IEEE大模型評測標準小組P3419,組織20余家企業及學者參與大模型標準建設,同時作為《人工智能預訓練模型評測指標與方法》國家標準草案的共建單位,智源此次的模型評測,借鑒了該標準,采取了客觀評測統一規則與主觀評測多重校驗打分相結合的方法。其中,開源模型采用模型發布方推薦的推理代碼及運行環境,對所有模型統一使用業界通用的提示語,不針對模型做提示語的優化

本次智源評測使用20余個數據集、超8萬道考題,包括與合作單位共建和智源自建的多個評測數據集,如中文多模態多題型理解及推理評測數據集CMMU、中文語義評測數據集C-SEM、中文語言及認知主觀評測集CLCC、面向復雜算法代碼生成任務的評測集TACO、文生圖主觀評測集Image-gen、多語言文生圖質量評測數據集MG18、文生視頻模型主觀評測集 CUC T2V prompts。其中,主觀題4000余道,均來源于自建原創未公開并保持高頻迭代的主觀評測集,嚴格校準打分標準,采取多人獨立匿名評分、嚴格質檢與抽檢相結合的管理機制,降低主觀偏差的影響。此外,為了更準確地評測語言模型的各項能力,智源專門對所有客觀數據集的子數據集進行了能力標簽映射

圖片 7.png

科學權威公正開放,是智源評測的最高綱領。智源研究院院長王仲遠表示,未來,智源將攜手生態合作伙伴繼續共建完善評測體系,促進模型性能的優化以及在多元復雜場景下的產業落地,推動大模型技術應用的有序發展。

最后需要說明的是,此次智源評測結果仍有一定的局限性:

1.本次評測主要集中于通用大模型的評測,還未覆蓋到垂直領域大模型;主要目標是為國內大模型生態提供參考,因此側重于在中文語境下的評估;通過API訪問模型會與網頁端訪問有差異,在一定程度上也會影響模型表現。

2. 本次評測各模型廠商發布的最新版本截至2024年4月20日,不代表各個廠商最新發布的模型性能表現。智源后續將持續、定期更新評測結果,歡迎模型廠商與智源交流、評測最新版本的模型能力。

3. 雖然我們努力將更多數據集納入本次評測,但由于資源和時間限制,僅精選了部分有代表性的數據集,后續我們也會持續擴充和新編數據集,將特別關注在復雜任務和垂直領域上的評測集建設,歡迎開放討論,共建共享評測數據及工具。

4. 單次評測的結果一定存在偏差,智源也將持續跟蹤大模型能力的發展,歡迎大家持續的關注和支持。

(作者:劉恒)

分享到:
標簽:出爐 評估結果 評測 國內外 體系
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52007

    網站

  • 12

    小程序

  • 1052527

    文章

  • 766

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定