AI正在向更深層次進化,語言與知識技術的重要性愈加凸顯。8月25日,以“掌握知識、理解語言、擁有智能”為主題的百度大腦語言與知識技術峰會重磅開啟,百度CTO王海峰發表主旨演講,解讀百度語言與知識技術的發展歷程與最新成果,與產學研各界分享技術及產業發展趨勢和展望,百度集團副總裁吳甜和百度技術委員會主席吳華分別發布百度語言與知識技術系列產品和數據集共建計劃,重磅推出5款產品的新發布,全面加速AI技術大規模應用。在演講中,王海峰表示,“在百度語言與知識技術的布局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,并力爭引領趨勢。”
語言與知識技術是人工智能認知能力的核心,以語言和知識為研究對象,讓機器像人一樣掌握知識、理解語言的自然語言處理技術,對于人工智能發展至關重要。十年來,百度大腦語言與知識技術成果豐碩,獲得包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。技術不斷突破創新的同時,也在產品上創新探索,同時將領先的技術輸出給開發者與合作伙伴,提升各行業智能化水平。
百度引領語言與知識技術創新,形成完整技術布局
半個多世紀前,老一輩自然語言處理學者,在一本名為《機器翻譯淺說》的書中,暢想了未來跨語言、跨文化的無障礙溝通場景。如今,機器同傳、翻譯機、跨模態翻譯等工具,已融入人們的工作和生活,溝通無國界的夢想正逐步實現。這一切是人工智能技術,特別是語言與知識技術進步所帶來的結果。
歷經近十年發展,百度已經構建了完整的語言與知識技術布局,包括知識圖譜、語言理解與生成技術,以及上述技術所支持的包含智能搜索、機器翻譯、對話系統、智能寫作、深度問答等在內的的應用系統。
其中,知識圖譜是機器認知世界的基礎。機器認知能力的突破,越來越依賴對知識和大規模知識圖譜的運用。百度打造了世界上最大的多源異構知識圖譜,擁有超過50億實體和5500億事實,并在不斷演進和更新,已應用于各行各業,每日調用次數超過400億次。
不僅如此,針對不同應用場景和知識形態,百度還建立起多樣化的知識圖譜類型,既有基礎的實體知識圖譜,也有行業知識圖譜、事件圖譜、關注點圖譜等,以及融合語音、視頻、圖片的多模態知識圖譜。這背后,是百度創建的包括無標簽大數據開放知識挖掘技術、知識體系自擴展的知識圖譜自學習技術、以及融合多源異構數據的知識補全與整合技術在內一整套知識圖譜構建方法。
在知識的加持下,語言理解相關技術的能力不斷增強,機器也可以逐漸像人一樣不斷學習、不斷進步。百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,具備人類一樣的持續學習能力,曾一舉登頂全球權威數據集GLUE榜單,首次突破90分大關,并且超越人類得分。而通過融入知識、語義理解、以及增強小樣本學習能力,機器的閱讀理解和對話能力也在迅速增強。
當然,和人類認知世界的形式類似,機器認知世界時,也不僅是運用自然語言,而往往是對語音、視覺、語音等多模態信息的綜合應用。
為此,百度研制了知識增強的跨模態深度語義理解方法,通過知識關聯跨模態信息,運用語言描述不同模態信息的語義,進而讓機器實現從“看清”到“看懂”、從“聽清”到“聽懂”,即圖像和語言、語音和語言的一體化理解。而融合場景圖知識的跨模態語義理解預訓練技術,則大幅提升了跨模態推理能力。
在機器理解自然語言之外,要與人進行交互,語言生成的任務也必不可少。百度基于多流機制的語言生成預訓練技術,在語言生成的過程中,兼顧詞、短語等不同粒度的語義信息,提升了生成效果。而多文檔摘要生成,則通過圖結構語義表示,引入篇章結構知識,增強長文本語義表示能力的同時,解決了跨文檔領域關系建模難題。結合語言生成技術和其他語言與知識技術,百度打造了智能創作平臺,已被20多家媒體所采用,日調用量超過35萬次。
領先技術持續落地應用,提升智能化水平
語言與知識技術的全面突破,在搜索、翻譯、對話系統等各類產品、應用中得到突出體現。王海峰介紹,通過知識圖譜、語言理解和跨模態語義理解等技術,智能搜索幫助用戶更加高效、精準、便捷地獲取知識和信息。智能搜索再進一步發展,搜索將無處不在。
百度提出了知識圖譜驅動的對話控制技術,以及首個基于隱空間的大規模開放域對話模型PLATO等,并推出智能對話定制和服務平臺UNIT,可幫助開發者高效構建智能對話系統,實現規模化應用。百度翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯合學習、基于語義單元的同傳模型、稀缺語種分組混合訓練算法等。
此外,百度語言與知識技術的成果,也在源源不斷通過開源開放平臺對外輸出,在互聯網、金融、醫療、教育等諸多領域發揮作用,提升產業智能化水平的同時,也得到了各方認可,這是近十年來百度語言與知識技術不斷進步的最佳證明。
演講最后,王海峰對語言與知識技術的進一步發展做了展望。他表示,復雜知識表示和快速構建技術,知識與深度學習進一步融合,深度融合感知和認知的跨模態語義理解技術,模型可解釋性和魯棒性等等,仍有很多技術難題需要持續研究和解決。但對于未來,百度充滿信心,愿始終堅持探索機器“掌握知識、理解語言、擁有智能”,與學術界、產業界攜手,推動語言與知識技術、人工智能技術持續進步,為產業不斷升級、社會經濟高質量發展做出更大貢獻。