知識是支撐下一代人工智能(AI)的基石,AI知識問答能力是衡量機器表示和推理的標準之一。
近日,智源研究院大模型研究中心提出知識問答新方法CGRM,使用知識增強的預訓練語言大模型悟道文淵(WenYuan1.0),登頂權威知識問答評測排行榜kgCLUE。
kgCLUE排行榜,截圖至2022年2月22日
CGRM與傳統方案結合獲得98.352的高分
CGRM的全稱是Corpus Generation - Retrieve Method,是智源研究院基于語料庫生成+檢索設計的AI知識問答方案。
相比單純基于“信息抽取”的傳統方案,這種設計思維完成知識問答任務的方式更直接,成本更低。與傳統方案相結合,能夠克服“傳播性錯誤”,有效提高召回率。目前CGRM正落地應用于健康管理領域,提供知識圖譜問答服務。
健康管理知識問答實例
超越主流信息抽取范式克服“一步錯,步步錯”的傳統傳播性錯誤
考慮這么一個知識問答任務:
問:主持人李冀川是哪里人?可能答案:李冀川, 成都電視臺《道聽途說》節目主持人,籍貫都市溫江區。
在AI模型實際運行過程中,有可能無法將"李冀川"作為一個人名正確識別,也無法將“哪里人"和“籍貫”進行正確匹配,及知識圖譜庫里可能存在多個“李冀川”。
因此,由于自然語言表達的多樣性,傳統基于信息提取的解決方案“命名實體識別、實體鏈接、答案排序”的流程繁瑣,容易形成“一步錯,步步錯”的傳播性錯誤。
整體架構圖,CGRM方案(綠框)與傳統方案(紅框)相互補充
智源研究院設計的CGRM方案,使用知識增強的預訓練語言模型WenYuan1.0,能夠基于知識圖三元組生成自然語言問答(QA)對,根據用戶的提問直接在生成的問答庫里進行檢索。
相對于傳統方案,CGRM方案更加“直接”,只需檢索即可回答用戶問題,能夠有效降低推理成本。CGRM這種新范式也證明了通過獨特的設計,用最簡單的檢索方式也能達到復雜問答系統所能達到的效果。
創新融合預訓練與知識圖譜避免“依賴訓練”和“語義差異”兩大痛點
目前大多數知識問答方法使用“流水線”從問題中提取或者表示語義信息。
一方面,由于“流水線”環節過多,容易產生“一招不慎滿盤皆輸”局面;另一方面,傳統模型依賴模型架構的設計,難以應對自然語言的語義差異,從而缺乏魯棒性。
CGRM解決方案同時利用了預訓練模型蘊含“先驗知識”,以及知識圖譜屬于“客觀世界認知的表示”兩種概念,能夠有效解決“過度依賴訓練”和“難以應對語義差異”兩個難點。
WenYuan1.0模型生成語料庫流程
CGRM的核心思想是:將知識圖譜中的所有三元組抽取出來,對三元組中的實體進行掩碼處理,并以處理過的三元組作為WenYuan1.0 模型輸入,得到模型生成的問題。該問題與三元組中被掩碼的實體即可組成一個QA對。如上圖所示,根據上述流程對全部三元組進行提問,就可以得到問題檢索使用的大型問答庫。 最后,依據用戶提出的查詢需求,直接在生成的語料庫中檢索相似的問題,得到候選問答對并進行打分排序,如果第一名的問答對得分超過設定的閾值,則將該問答對中的答案作為用戶問題的答案輸出。
智源大模型研究中心將知識融入大模型,在CGRM方案采用語料庫生成+檢索的設計思路,為行業探索簡單知識的“融入”提供了新思維。
未來,研究員們將探索復雜知識的生成與融入,從而實現增量性學習的推理過程。團隊也會持續增強大模型在百科、常識和特定領域知識上的相關能力,并通過數據、知識與模型的創新結合,為大模型及其下游應用賦能。