昆侖萬維天工大模型自4月17日宣布啟動邀測,官方宣布:天工是由昆侖萬維(SZ:300418)和奇點智源合作自研、中國第一個真正實現智能涌現的國產大語言模型。
“大”模型有一個重要的特性“涌現”。所謂涌現現象就是在越過了某個參數量和頭尾數據量后,其能力曲線就會陡然提升,包括但不限于知識庫的擴大和推理能力的提升。
昆侖萬維表示天工用到了兩個千億模型 —— 千億預訓練基座模型和千億 RLHF(Reinforcement Learning from Human Feedback)模型。
而其中的 RLHF 就是“涌現”能力的最重要由來。千億級別的 RLHF 或許是未來模型進步的最重要模塊。
LLM(大語言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習方式依據人類反饋優化語言模型。
RLHF 需要收集大量高質量的人類偏好數據,包括人工生成的文本和對模型輸出的排名標簽。除此之外,RLHF 還需要處理標注者的偏見和不一致以及模型輸出的有害或不真實的風險。
總體來說,相較于傳統算法,RLHF 需要更多的人工標注和數據清洗以向模型提供充足的帶標注的文本數據(又或者是圖片數據以訓練多模態模型)。
本次天工還有一個重要宣傳點為:超過20輪的對話能力和1萬字以上的長篇文本記憶能力。這也是當前大部分國產模型最為欠缺的。
之前測試文心一言和 ChatGLM 的時候也表現出了明顯的記憶丟失現象。而長記憶能力也是大語言模型的“涌現”現象的一個表征。本文也將著重于測試這項能力。
模型能力測試
本次測試我們主要將天工與 ChatGPT3.5做對比。在部分較難問題(ChatGPT3.5 和天工均無法完成),會引入當前公認最強大語言模型 ChatGPT4 作為參考模型。
對大語言模型能力的測試,常常使用三個模塊來評價,分別為語言生成能力,邏輯推理能力,代碼分析能力以及長對話連續生成能力。
一、語言生成能力
1.問題:“猜謎語:埋在奴家心底,打一字”。
本題中,僅有天工正確回答了這個字謎,而 OpenAI 旗下的兩款 AI 模型都未正確答復。
ChatGPT4 則是看似正確地給出了一個不正確的答案。而這正說明本土的語言模型的優勢,即針對本國語言的專業調優能力以更符合本地人的使用習慣。
2.“這首詩是什么意思:女媧煉石補天處,石破天驚逗秋雨。夢入神山教神嫗,老魚跳波瘦蛟舞。吳質不眠倚桂樹,露腳斜飛濕寒兔。”
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
事實上這一段句子是出自于李賀的《李憑箜篌引》。雖然天工和ChatGPT3.5均根據這首詩本身給出了解讀,但是很顯然由于知識庫的欠缺,都無法基于詩詞本身的背景解讀,只能從文字本身推斷詩詞含義,自然水平有限。
3.“請幫我列舉一個一份賽博朋克世界觀的科幻小說的故事大綱和主要人物設定”。
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
從本題結果來看,生成效果 ChatGPT4>天工>ChatGPT3.5 。天工在面對中文類題目時表達能力不錯,可以較好地理解中文問題并給出相關答案。
ChatGPT3.5在理解問題和給出答案方面表現也不錯,但相較于 ChatGPT4 和天工,生成結果的流暢度和準確性稍有欠缺。ChatGPT4表現最好,能夠更加準確地理解問題和生成相關內容,輸出結果的流暢度和準確性也更高。
4.“從這封電子郵件中提取收貨人姓名和地址:親愛的凱利,很高興在研討會上與您交談。我覺得簡的演講很好,謝謝你要送我的書,這是我的地址 2111 Ash Lane, Crestview CA 92002。Best, Maya”。
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
從本題結果來看,天工的表現好于 ChatGPT3.5 和 ChatGPT4。天工能夠準確地識別并提取出郵件中的收貨人姓名而ChatGPT3.5 則識別錯誤。
二、邏輯推理能力
1.“樹上有9只鳥,獵人開槍打死1只,樹上還剩幾只鳥?”
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
ChatGPT4 能夠準確理解問題并給出正確的答案,即樹上沒有鳥。ChatGPT4 理解了這是一個腦經急轉彎或者需要聯合實際的題目,而另外兩款模型則沒有這種推理能力。
2.“假設False 與 True 是 False. 則True 與 not False 是?”
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
ChatGPT3.5 和 ChatGPT4 能夠理解問題并給出正確的答案,即 True 與 not False 都是 True。而天工則出現了錯誤的答案,這可能是因為它沒有很好地理解問題中的邏輯關系,導致輸出結果與實際不符。
3.“爸爸媽媽結婚為什么沒有邀請我?”
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
ChatGPT4 能夠更好地理解問題并給出比較合理的答案,而天工也能理解到這其實是一個玩笑。ChatGPT3.5 則一本正經的胡說。
4.“確定給定句子是否表明兩個事件之間存在因果關系、相關關系或中性關系。如果句子表示因果關系,則回答因果關系;如果句子表示相關關系,則回答相關;如果句子表示兩個事件之間既沒有因果關系也沒有相關關系,則回答中性。句子為:“如果你去過博物館,你就去過大英博物館。”
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
對于語言邏輯的推理,三者均能正確表達。
三、代碼分析能力
1.“使用C語言解決:輸入一行字符,分別統計出其中英文字母、空格、數字和其他字符的個數。提示:靈活使用getchar() 函數來按順序讀入所輸入字符串里面的各個字符。”
上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4
在給予了提示后二者均能正確完成這種基礎題目。
2.下面是一道經典的力扣鏈表題:
上圖天工 下圖 ChatGPT3.5
這是一道基礎的鏈表類題目,而天工已經無法正確解決。在代碼數據集上,坐擁 Github 的微軟聯合 OpenAI 的實力異常強大。
3.給定一個未排序的整數數組 nums ,找出數字連續的最長序列(不要求序列元素在原數組中連續)的長度。請你設計并實現時間復雜度為 O(n) 的算法解決此問題。
上圖天工 下圖 ChatGPT3.5
與上一題相同,本題天工依舊回答錯誤而 ChatGPT3.5 回答正確。
四、長對話能力
天工本次的宣傳重點就在于20+輪長對話能力和超過1萬字的記憶能力。而這也一直是除了 OpenAI 外的大模型的普遍痛點,即記憶能力不強。因此此次測試特此加入多輪對話的實測。
我們首先讓他給出一個廢土風格的科幻小說框架:
接著讓他給出主人公的設定:
由于這個框架中沒有女性角色,我們讓他在原有的故事框架中添加女性角色:
全篇超過了1800字,而天工并沒有丟失記憶。在目前的國產大模型中是效果最好的一檔。天工也印證了其宣傳的多輪對話能力。
總結
從上述評測結果來看,天工作為國產大語言模型,在中文語境和特定場景下表現出色,能夠理解和回答相關問題。
在語言生成能力方面,天工和ChatGPT3.5都表現得相對不錯,尤其是在中文問題上,天工的表現優于ChatGPT3.5。然而,在邏輯推理、代碼分析和長對話能力方面,天工與ChatGPT3.5和ChatGPT4相比仍有明顯差距。
在邏輯推斷上,天工確實表現出了其宣稱的“涌現”現象,獲得了一定的邏輯推理能力。這是模型增大和引入 RLHF 的典型表現。其在算法積累和模型參數量擴大上有一定的成效。
但是天工的代碼能力確實顯著弱于ChatGPT3.5的能力。ChatGPT3.5可以出色的完成大部分的 leetcode 算法題并且可以一次通過。
而天工生成的代碼一般都無法直接通過。這可能主要得益于微軟旗下的 GitHub 的龐大積累以及其提供的巨量代碼樣例。
在天工自己宣傳的多輪對話和涌現現象來看,可以看到天工確實具備了一定的多輪對話能力。
對于上下文的記憶能力當前處于國內領先水平。大語言模型的涌現現象,是指當一個語言模型的規模(參數量、訓練數據量、計算量等)達到一定的閾值時,它會表現出一些小規模模型所不具備的能力。
例如在沒有額外訓練或梯度更新的情況下,通過少量的示例或提示來完成各種下游任務。這種能力是難以預測和解釋的,因為它不符合簡單的伸縮法則,而是在某個臨界點發生了質變。
在目前來看,天工可能確實產生了涌現現象,極大提升了模型的能力并降低了模型對于定向數據的依賴。同時長期記憶能力也賦予了模型更多的可能性。
總體來說,天工作為國內大語言模型的代表,表現出了一定的競爭力。在未來,天工在不斷優化和改進的過程中,有望在特定場景和應用領域取得更好的成績。
然而,要在全球范圍內與頂級模型展開競爭,天工仍需在各個方面加強提升。