近年來,盡管自然語言處理技術飛速發展,但在模型魯棒性、可解釋性、復雜知識表示與文本融合、跨模態語義理解等方面依然面臨挑戰。為了解決自然語言技術發展中所面臨的挑戰和推進中文信息處理技術的進步,8月25日百度大腦語言與知識技術峰會在線上召開,百度聯合中國計算機學會、中國中文信息學會共同發布“千言”數據共建計劃(網址:https://luge.ai)。同時,百度技術委員會主席吳華發布了算力共享計劃,希望通過數據集的共建與算力的共享,與學界、產業界共同推進技術進步。
百度聯合中國計算機學會、中國中文信息學會共同發布千言數據共建計劃
目前,“千言”項目第一期已涵蓋7大任務、20余個中文開源數據集,由百度攜手哈工大、清華、中科院信息工程研究所等在內的10所頂級高校、企業共同建設完成。吳華表示:“我們希望通過這些計劃,與業界同仁一起解決中文信息處理技術發展中的挑戰,并在世界范圍內建設中文信息處理影響力。”
除兩大重磅計劃公布外,此次峰會凝聚了百度在語言與知識領域十年的技術積累和產業實踐。百度CTO王海峰發表主旨演講,解讀了百度語言與知識技術的發展歷程、最新成果及趨勢展望,百度集團副總裁吳甜重磅推出5款產品的新發布,加速技術大規模應用發展。
共建中文開源數據集 “千言”計劃應對語言與知識技術應用新挑戰
讓機器像人一樣理解語言、掌握知識的自然語言處理技術,是人工智能中認知智能的核心;對語言信息的處理能力也是一個國家的核心競爭力。我們每天都在使用的搜索、翻譯、信息流推薦、時刻回應你每個需求的智能助手等,背后都是語言與知識技術在發揮作用。
這樣大規模的產業化應用也對技術提出了新挑戰。包括模型需要具有全面的、處理多個子任務的能力;在跨領域數據上具有較好的泛化能力;在應用中有足夠的魯棒性以保證安全等等。此外,這些大規模應用對語義理解提出了更高的要求,要求模型具備一定的常識、背景知識甚至推理能力;同時隨著內容承載形式的多元化,也需要模型具有多模態融合的內容理解能力等。
為應對以上問題,百度聯合中國計算機學會、中國中文信息學會共同發起了“千言”數據共建計劃,攜手高校和企業的數據資源研發者共同建設中文開源數據集。在此次峰會上,百度技術委員會主席吳華、中國中文信息學會副理事長兼秘書長孫樂、中國計算機學會自然語言處理專委會主任周國棟共同解讀了“千言”數據集,“千言”的目標是覆蓋豐富的任務類型,從語義理解、知識融合、跨模態融合等角度推動技術進步,同時提供能進行多維度綜合評價的數據集,從而評價模型的全面性、泛化性和魯棒性等。
截至目前,第一期千言項目已涵蓋了7大任務、20余個中文開源數據集,包括開放域對話、閱讀理解、機器同傳、情感分析、語義解析、信息抽取和文本相似度等。由百度攜手來自哈爾濱工業大學、清華大學、中國科學院信息工程研究所等10所頂尖高校和企業的數據集作者共同建立完成。
為了使千言能夠提供一站式的數據瀏覽、下載和評測的科研體驗,百度還對所有數據進行了處理,每個任務都有統一的數據格式和評測,并在此基礎上提供了基線系統,幫助加速模型的研發。
吳華表示,在未來3年中,千言計劃面向超20個任務,收集和建設不少于100個中文自然語言處理數據集,全面覆蓋知識圖譜、語言理解、語言生成、跨模態融合、NLP 應用系統等多個領域。也期待更多數據集作者能夠加入共建,共同推動中文信息處理技術的進步。
推出算力共享計劃!百度全力支持語言與知識技術開發者、研究人員
除數據外,算力是語言與知識技術發展中面臨的另一大挑戰。超大規模深度學習模型帶來顯著效果提升的同時,算力的需求也呈現出指數級的增長。算力的缺乏已經成為了許多開發者、研究人員進行技術研發的一大瓶頸。
為此,百度正式發布了語言與知識算力共享計劃。通過AI STUDIO平臺,百度將提供算力支持,為語言與知識技術開發者助力。吳華表示,后續百度會邀請“千言”數據集的使用者,百度語言與知識開源開放的用戶以及更多的中文語言與知識技術開發者、研究人員免費使用這些算力。
傳承千年的中文鑄就了璀璨的華夏文明。在當下的人工智能時代,百度也希望與學術界、產業界攜手,共同推動中文信息處理技術的進步,以智能技術學習并傳承凝練于中文語言中的無盡寶藏。