6月9日,為期兩天的“北京智源大會”在中關村國家自主創新示范區會議中心成功開幕。科技部副部長吳朝暉和北京市副市長于英杰出席開幕式并致辭。
北京智源大會是智源研究院主辦的年度國際性人工智能高端專業交流活動,定位于“AI內行頂級盛會”,以“國際視野、技術前沿、思想激蕩、洞見未來”為特色,已連續舉辦5屆。今年,大會邀請到了圖靈獎得主Geoffrey Hinton、Yann LeCun、Joseph Sifakis和姚期智,張鈸、鄭南寧、謝曉亮、張宏江、張亞勤等院士,加州大學伯克利分校人工智能系統中心創始人Stuart Russell,麻省理工學院未來生命研究所創始人Max Tegmark,OpenAI首席執行官Sam Altman等200余位人工智能頂尖專家參會,嘉賓將以國際視角探討通用人工智能發展面臨的機遇與挑戰。
開幕式由智源研究院理事長張宏江主持。
智源研究院院長黃鐵軍發布《2023智源研究院進展報告》,并發布了全面開源的“悟道3.0”系列大模型及算法,報告了在高精度生命模擬和有機大分子建模方面的最新進展。
成果發布方面,繼2021年悟道大模型項目連創“中國首個+世界最大”紀錄之后,智源 “悟道3.0 ”進入全面開源新階段,帶來一系列領先成果:“悟道·天鷹”(Aquila)語言大模型系列、天秤(FlagEval)開源大模型評測體系與開放平臺,“悟道 · 視界”視覺大模型系列,以及一系列多模態模型成果。
智源大模型系列全面開源
發布語言、視覺、多模態等領先成果
智源研究院是國內最早進行大模型研究的科研機構之一,自2020年10月啟動大模型研發工作,發展至今已實現了多個率先:
l 率先匯集頂尖 AI 學者,「智源學者」開啟大模型立項探索
l 率先組建大模型研究團隊,成為日后中國大模型研究主力
l 率先預見「人工智能大模型時代到來」
l 率先發布「悟道」大模型項目,連創「中國首個+世界最大」紀錄
l 率先開啟大模型測評旗艦項目,助力大模型研究發展
l 率先倡導大模型開源開放,發布 FlagOpen 大模型技術開源系統
l 率先構建大模型學術生態,智源大會+智源社區成為大模型研討高點陣地
據黃鐵軍介紹,在2021年3月,悟道1.0發布會上,智源研判人工智能已經從“大煉模型”轉變為“煉大模型”的新階段,從此,“大模型”這個概念進入公眾視野。
至于何為大模型?他認為需要具備三個條件:一是規模要大,參數達百億規模以上;二是涌現性,能夠產生預料之外的新能力;三是通用性,不限于專門問題或領域,能夠處理多種不同的任務。
悟道系列模型已發展到“悟道3.0”版本,涵蓋語言、視覺、多模態等基礎大模型,現在已全面開源。
1. “悟道·視界”視覺大模型系列,實現六項國際領先技術突破,點亮通用視覺曙光。
“悟道·視界”系統化解決了當前計算機視覺領域的一系列瓶頸問題,包括任務統一、模型規模化以及數據效率等,包括:
l 在多模態序列中補全一切的多模態大模型 Emu
l 最強十億級視覺基礎模型 EVA
l 一通百通、分割一切的視界通用分割模型
l 首創上下文圖像學習技術路徑的通用視覺模型Painter
l 性能最強開源CLIP模型 EVA-CLIP
l 簡單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術
多模態大模型 Emu接受多模態輸入、產生多模態輸出。通過學習圖文、交錯圖文、交錯視頻文本等海量多模態序列,實現在圖像、文本和視頻等不同模態間的理解、推理和生成。訓練完成后,Emu 能在多模態序列的上下文中補全一切,實現多輪圖文對話、視頻理解、精準圖像認知、文圖生成、多模態上下文學習、視頻問答和圖圖生成等多模態能力。
EVA為當前最強十億級視覺基礎模型,通過將語義學習和幾何結構學習這兩大解決視覺問題的關鍵點進行結合,讓視覺模型的通用性更強,目前EVA在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務中取得當時最強性能。
多模態圖文預訓練大模型EVA-CLIP是當前性能最強的開源CLIP模型。EVA-CLIP基于視覺基礎模型EVA研發,去年發布的EVA-CLIP 1B 版本,今年才被Meta在5月份剛發布的DINOv2模型追平。在今年年初發布的EVA-CLIP 5B版本創造了零樣本學習性能新高度,超越此前最強的OpenCLIP模型,在ImageNet 1K數據集上零樣本達到最高82%的準確率。
Painter通用視覺模型首創「上下文圖像學習」技術路徑,圖像理解圖像、圖像解釋圖像,圖像輸出圖像:將自然語言處理中的上下文學習概念引入視覺模型,首創“上下文圖像學習”技術路徑,將“以視覺為中心”作為建模核心思想。目前Painter模型可完成7種主流視覺任務,性能相比國際同類模型具有11%-25%的性能提升。
一通百通,分割一切的視界通用分割模型,是首個利用視覺提示(prompt)完成任意分割任務的通用視覺模型,一通百通、分割一切。從影像中分割出各種各樣的對象,是視覺智能的關鍵里程碑。今年年初,智源視界分割模型與Meta 的 SAM 模型同時發布,點亮通用視覺曙光。
簡單prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術,首次在無需額外視頻訓練的情況下,利用注意力機制動態運算的特點,結合現有圖像擴散模型,實現可指定屬性的視頻編輯。
2. 悟道·天鷹(Aquila)語言大模型系列+天秤(FlagEval)評測體系,打造大模型能力與評測標準雙標桿
為推動大模型在產業落地和技術創新,智源研究院發布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果,打造“大模型進化流水線”,持續迭代、持續開源開放。
“悟道·天鷹(Aquila)”開源商用許可語言大模型系列
悟道·天鷹Aquila 語言大模型是首個具備中英雙語知識、支持商用許可協議、國內數據合規需求的開源語言大模型。
悟道·天鷹Aquila 語言大模型是在中英文高質量語料基礎上從 0 開始訓練,通過數據質量的控制、多種訓練的優化方法,實現在更小的數據集、更短的訓練時間,獲得比其它開源模型更優的性能。
“悟道·天鷹”的開源屬于一系列套餐,包括Aquila·基礎模型、AquilaChat對話模型與AquilaCode(文本-代碼)生成模型。
Aquila基礎模型(7B、33B)在技術上繼承了 GPT-3、LLaMA 等的架構設計優點,替換了一批更高效的底層算子實現、重新設計實現了中英雙語的 tokenizer,升級了 BMTrain 并行訓練方法,在Aquila的訓練過程中實現了比 Magtron+DeepSpeed ZeRO-2 將近8倍的訓練效率。
AquilaChat對話模型(7B、33B)支持流暢的文本對話及多種語言類生成任務;通過定義可擴展的特殊指令規范,實現AquilaChat對其它模型和工具的調用,且易于擴展。例如,調用智源開源的 AltDiffusion 多語言文圖生成模型,實現了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,它還可以輕松實現對人臉圖像的多步可控編輯。
圖:多輪對話
圖:高考作文生成
圖:文圖生成
圖:多步可控人臉編輯
AquilaCode-7B “文本-代碼”生成模型基于Aquila-7B強大的基礎模型能力,以小數據集、小參數量,實現高性能,是目前支持中英雙語的、性能最好的開源代碼模型,經過高質量過濾,使用有合規開源許可的訓練代碼數據進行訓練。
此外,AquilaCode-7B 分別在英偉達和國產芯片上完成了代碼模型的訓練,并通過對多種架構的代碼+模型開源,推動芯片創新和百花齊放。
圖:文本-代碼生成
天秤(FlagEval)大模型評測體系及開放平臺,旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用AI方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。
目前已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎模型、跨模態基礎模型實現評測。后續將全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象,包括自然語言處理(NLP)、計算機視覺(CV)、音頻(Audio)及多模態(Multimodal)等四大評測場景和豐富的下游任務。
首期推出的天秤(FlagEval) 大語言模型評測體系,創新構建了“能力-任務-指標”三維評測框架,細粒度刻畫基礎模型的認知能力邊界,可視化呈現評測結果,總計 600+ 評測維度,包括 22個評測數據集,84,433道題目。
天秤(FlagEval)開放評測平臺現已開放申請(flageval.baai.ac.cn),打造自動化評測與自適應評測機制,可輔助模型研發團隊利用評測結果指導模型訓練,同時支持英偉達、昇騰(鵬城云腦)、寒武紀、昆侖芯等多種芯片架構及 PyTorch、MindSpore 等多種深度學習框架。
天秤(FlagEval)評測體系是科技部2030旗艦項目重要課題,正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術標準化研究院、中國科學院自動化研究所等合作單位共建(按首字母排序),定期發布權威評測榜單
3. 開源開放,FlagOpen 大模型開源技術體系升級,大規模、可商用中文指令數據集COIG二期發布
黃鐵軍院長提到,大模型不是任何一家機構或者一家公司壟斷的技術,大模型技術體系是大家共建共享。我們要共建一個智力社會所需要的一套基礎的算法體系。因此,智源研究院在打造開源生態方面做了許多努力。
圖:FlagOpen旗下,一站式開源子平臺一覽
今年年初發布的FlagOpen大模型技術開源體系,經過一段時間的發展,又有了一系列發展。為大模型發展夯實底層技術棧,提供切實加速度。
FlagOpen平臺是智源建設的大模型技術開源體系。旨在打造全面支撐大模型技術發展的開源算法體系和一站式基礎軟件平臺,支持協同創新和開放競爭,共建共享大模型時代的“新Linux”開源開放生態。
數據集方面,智源已開源首個大規模、可商用的中文指令數據集COIG。COIG一期已開放總計19.1萬條指令數據,COIG二期正在建設最大規模、持續更新的中文多任務指令數據集,整合了1800多個海量開源數據集,人工改寫了3.9億條指令數據,并提供了完善的數據篩選、版本控制工具,方便大家使用。
大模型、生命智能、AI4Science,
三大路線通向AGI
在攻關大模型的同時,智源一直關注“具身智能”技術路線,探索強化學習在多模態交互模型方面的潛力。近期,智源研究院提出了在無專家數據情況下高效解決《我的世界》任務的方法Plan4MC,可完成大量復雜多樣任務,為當前強化學習路徑下最優表現,成功率相比所有基線方法有大幅提升。我們的下一個目標是讓智能體在開放世界中持續學習并進一步具備創造力。
智源在AI for Science領域的探索,致力于人工智能與基礎科學深度融合的嶄新科研范式,延展不同科學領域的探索邊界,造福人類與社會。在相關研究中,智源團隊在生命演化和蛋白質結構預測方向作出了重磅成果。OpenComplex 是智源健康計算研究中心打造的面向生物大分子的開源人工智能算法平臺,目前已開源蛋白質、RNA 以及復合物的高精度結構預測訓練和評測代碼。平臺還建立了將「蛋白質結構預測」「RNA 結構預測」和「蛋白質-RNA 復合物結構預測」三類任務統一的端到端生物大分子三維結構預測深度學習框架。最近一年,智源 OpenComplex 團隊在蛋?質結構預測權威競賽 CAMEO中取得穩定領先成績,連續在最近月度、季度、半年度和年度評測周期中排名第一。
去年智源大會發布了最高精度的仿真線蟲。現在,智源開放仿真線蟲研究所使用的“天演“平臺,提供在線服務。天演是超大規模精細神經元網絡仿真平臺,具有四項顯著特點:當今效率最高的精細神經元網絡仿真的平臺;支持超大規模的神經網絡仿真;提供一站式在線建模與仿真工具集;高質量可視化交互,支持實時仿真可視協同運行。
基于天演平臺,實現對生物智能進行高精度仿真,探索智能的本質,推動由生物啟發的通用人工智能。為進一步推動神經系統仿真規模與性能,天演團隊將天演接入我國新一代百億億次超級計算機-天河新一代超級計算機。通過“天演-天河”的成功部署運行,實現鼠腦V1視皮層精細網絡等模型仿真,計算能耗均能降低約10倍以上,計算速度實現10倍以上提升,達到全球范圍內最極致的精細神經元網絡仿真的性能,為實現全人腦精細模擬打下堅實基礎。
智源大會:人工智能頂級專家
共話通用人工智能發展機遇與挑戰
隨著ChatGPT等大模型的發布,全球人工智能掀起了新一輪發展熱潮,國內外大模型技術研究與產業發展日新月異,通用人工智能進入全新發展時期。
本次大會圍繞當前大模型等通用人工智能技術發展的熱點問題,匯聚頂尖專家,搭建國際交流合作平臺,將為人工智能技術可持續發展注入強勁動力。
在本屆大會安排上,重點圍繞以下三方面展開:
1. 通用人工智能發展現狀與未來趨勢:
雖然大模型生成的內容質量持續在提升,但是仍有專家對大模型路徑存疑。圖靈獎得主Yan LeCun認為基于自監督的語言模型無法獲得關于真實世界的知識,這些模型在本質上是不可控的,并提出了“世界模型(World Model)”的概念。
本次大會重點圍繞通用人工智能主要三條路徑的前沿研究現狀及未來趨勢進行深入研討。
深度學習大模型路徑設置了基礎模型前沿技術、視覺與多模態大模型、生成模型等論壇,具身方向設置了具身智能與強化學習論壇,類腦智能方向設置了基于認知神經科學的大模型、
類腦計算、AI生命科學等論壇,另外,還有智能的物質基礎等更為前沿的研究方向。
作為首位開場嘉賓,圖靈獎得主Yann LeCun帶來了題為“Towards Machines that can Learn, Reason, and Plan”的主題演講,表達了他對通用人工智能發展路徑的系統思考。
圖:楊立昆和朱軍對話
圖靈獎得主Joseph Sifakis、鄭南寧院士和Graphcore聯合創始人Simon Knowles等嘉賓還帶來了精彩的線上特邀報告。同時,基礎模型前沿技術、視覺與多模態大模型、具身智能與強化學習、類腦計算、大模型新基建與智力運營等專題論壇也陸續開啟。
2. 安全倫理問題和風險防范:
今年人工智能的發展出現了很大的變化,大模型出來了“涌現”能力,盡管還遠沒到“超人”的風險,但是,隨著人工智能技術進步而來的是對安全風險問題關注的陡然提升。
本次大會,我們也邀請到了關于人工智能安全倫理問題方面的代表性人物進行思辨。
大會開幕式上,未來生命研究所創始人Max Tegmark介紹受控下的AI發展, 分享了“Keeping AI under control”的報告,并與清華大學張亞勤院士進行了對話,共同探討AI倫理安全和風險防范問題。
6月10日全天的“AI安全與對齊”論壇,OpenAI聯合創始人Sam Altman進行了開場主題演講,圍繞模型的可解釋性、可擴展性和可泛化性給出了見解。隨后,Sam Altman和智源研究院理事長張宏江開展了尖峰問答,主要探討在當前的AI大模型時代,如何深化國際合作,如何開展更安全的AI研究,以及如何應對AI的未來風險。
圖:張宏江和Sam Altman對話
本次論壇眾星云集,加州伯克利分校教授Stuart Russell、 圖靈獎得主,中國科學院院士姚期智、Anthropic聯合創始人Christopher Olah等等AI專家,也在論壇中給出了自己對當前AI可持續發展的洞見。
3. 開源開放創新生態建設
當前,以大模型為核心的人工智能生態體系正在形成,大模型向下帶動AI基礎軟硬件、AI系統、算力設施,向上支撐賦智經濟社會各類應用。本次大會圍繞底層基礎設置大模型新基建與智力運營、AI系統等論壇,圍繞應用設置自動駕駛論壇。
開源開放是人工智生態建設的必然選擇,本次大會專門設置了AI開源論壇,同時邀請了國際開源社區LAION的創始人,Linux基金會負責人共同探討開源社區、開源生態的建設與運營,推動開源開放創新生態建設。
每年的智源大會,都會吸引幾萬人工智能專業人士,受到廣泛認可。
這一頂尖AI內行交流平臺,已成為鏈接國內外人工智能頂尖學者,進行前沿思想研討的頂尖專業交流平臺。大會分享嘉賓一直遵循嚴格的內行榮譽邀請制,以保障分論壇也有不遜色于主論壇的高端分享嘉賓與規格品質。每年智源大會,大部分論壇都由智源學者、產業合作者共同組織,是智源學術與產業生態圈攜手繪制的杰作。
在過去的四年間,500余位以圖靈獎得主為代表的頂尖AI專家在這里激揚思想,數萬名專業人士注冊參會,覆蓋30多個國家和地區。
在生態創新方面,除了智源大會,還形成了智源學者、智源社區、青源會等層巒疊嶂、欣欣向榮的AI生態圈,從頂尖學者到青年才俊,從前沿思想到一線實踐。智源學者匯聚近百位人工智能學者,自由探索勇闖AI無人區;智源社區吸引12萬AI內行,每年舉辦逾百場學術交流活動;青源會則囊括海內外1000+青年AI才俊,密切交流。