10月26日,在北京舉行的2021人工智能計算大會(AICC 2021)上,浪潮人工智能研究院正式發布“源1.0”開源開放計劃,這一全球最大中文巨量模型將以開放API、開放數據集、開源代碼等多種形式為業界提供開放合作,人工智能相關高校和科研機構、產業伙伴及智能計算中心用戶可通過“源1.0”官網air.inspur.com提出申請,經審核授權后即可基于“源1.0”模型探索算法創新以及開發各類智能化應用。
浪潮宣布全球最大中文AI巨量模型"源1.0”開源開放計劃
“源1.0” 開源開放計劃將首先面向三類群體,一是高校或科研機構的人工智能研究團隊,二是元腦生態合作伙伴,三是智能計算中心。面向第一類群體,“源1.0”將主要支撐在語言智能前沿領域的算法創新和方向探索;面向第二類群體,“源1.0”將主要支撐元腦生態伙伴開發行業示范性應用,如智能文本服務、語言翻譯服務、內容生產服務等等,探索語言智能產業落地的“殺手級應用”;面向第三類群體,“源1.0”將作為算法基礎設施,與智能計算中心算力基礎設施高效協同,支撐AI產業化和產業AI化發展。
“源1.0”開放開源計劃項目包含開放模型API,開放高質量中文數據集,開源模型訓練代碼、推理代碼和應用代碼等。同時,浪潮人工智能研究院將和合作伙伴一起,共同開展針對國產AI芯片的“源1.0”模型移植開發工作。
為更好的支撐“源1.0”的開源開放計劃,浪潮人工智能研究院將加強模型API和平臺生態構建,開發支持高并發、高速推理的多種API接口,以支持各類用戶對模型或功能的不同請求方式。同時,浪潮人工智能研究院也將大力運營“源1.0”開源開放社區,建立完善的開發反饋機制并加快模型迭代。
浪潮信息副總裁、AI&HPC產品線總經理劉軍表示:“巨量模型應該成為普惠性的科技進步力量,讓行業用戶甚至是中小用戶也能使用巨量模型尋求深度創新,促進業務可持續健康發展,這是浪潮開源開放‘源1.0’的初衷。我們希望與更多的產、學、研、用單位和開發者一起,從技術創新、場景融合、應用開發等各個維度,共同促進巨量模型的健康發展與產業落地。”
“源1.0”是全球最大規模的中文AI巨量模型,其參數規模高達2457億,訓練采用的中文數據集達5000GB,相比GPT-3模型1750億參數量和570GB訓練數據集,“源1.0”參數規模領先40%,訓練數據集規模領先近10倍。 “源1.0”在語言智能方面表現優異,獲得中文語言理解評測基準CLUE榜單的零樣本學習和小樣本學習兩類總榜冠軍,測試結果顯示,人群能夠準確分辨人與“源1.0”作品差別的成功率已低于50%。
在AICC 2021大會現場,參會人員與“源1.0”進行實時互動,根據互動者給出的主題或者上聯,“源1.0”會迅速作出詩歌或者對出下聯。眾多參會者在現場體驗“源1.0”的詩詞創作能力,體驗者表示,如果不是親身體驗,肯定看不出來詩歌是AI模型創作的,“重要的不僅能押好韻,而且更能寫出中文詩的美妙意境。”
AICC參會者排隊體驗“源1.0”巨量模型的文學創作能力
浪潮人工智能研究院透露已啟動新的巨量模型“源2.0”的開發工作,“源2.0”的開發會更注重協同創新,將與業內合作伙伴聯合展開前沿探索。