近日,在斯坦福大學、華盛頓大學、Allen AI 和 UMass 聯合發起的機器閱讀理解(QuAC[1] (Choi et al., 2018))比賽上,京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single Model)登頂 QuAC Leaderboard,全部三項指標均獲得第一名。
其中,在 F1-Measure(又稱為 F1-Score) 指標上達到 74.6,大幅拉近了機器與人類在該任務上的水平差距。這也意味著以零售、物流、金融、客服等優質場景為依托的京東 AI 研究院,在機器閱讀理解能力上取得了突飛猛進的成果。
圖 1QuAC 挑戰賽官方成績榜單(https://quac.ai)
目前,QuAC 是人機多輪對話交互領域復雜度最高的數據集,要求模型具備強大的上下文語義理解、指代推理、省略語義恢復和知識推理等能力,這也吸引了全球頂級科研院所和企業研究機構參加。從結果來看,QuAC 具有較高的難度,在這個數據集上目前的最佳 AI 模型的性能距離人類表現仍有一定差距,表明在這個問題上技術還有進步的空間。
QuAC 新挑戰:更復雜的數據集、更開放的問題、更貼近真實場景
機器閱讀理解能力已成為判斷機器是否具有自然語言理解(語義理解、閱讀、問答等)能力的重要標準。SQuAD[2] (Rajpurkar et al., 2016) 數據集的提出極大地推動了機器閱讀理解的研究與發展。隨著模型在上述單輪問答場景超越人類,更有挑戰的交互式閱讀理解數據集,如 CoQA[3] (Reddy et al., 2018) 等,被相繼提出。
相比于眾多交互式閱讀理解數據集,QuAC 具有更鮮明的特點,也更進一步反映了復雜人機對話交互應用場景的難度。比如(1)基于答案對提問者不可見的方式構造開放式問題,增大回答難度;(2)增加對話引導行為(Action)輔助提問者調整提問話題,以便高效獲取信息;(3)模擬真實場景引入不可回答問題,增加對模型理解與判斷能力的要求。
具體而言,該數據集是由提問者(Student)和回答者(Teacher)針對某一主題展開對話而構建的,提問者在只能看見給定主題而不可見主題具體信息的條件下進行開放式的提問,回答者針對問題不僅要給出具體回復(response),并且需反饋對話引導行為和問題是否可回答等信息。
圖 2:QuAC 數據集示例
例如,圖 2 展示了提問者首先根據主題 Daffy Duck 進行提問。回答者會根據給定主題相關信息和交互歷史來判斷當前問題所討論的話題是否可繼續提問,繼而反饋給提問者相應的對話引導行為,包括繼續當前話題(Follow-Up),終止當前話題(Don’t Follow-Up)或無法判斷是否繼續(Maybe Follow-Up),并最后給出相應的答案。
該競賽的數據構造過程更貼合人們通過對話進行信息獲取(Conversational Information-Seeking)的真實場景。例如在零售領域,用戶對某一商品進行開放式咨詢,智能客服根據具體的商品信息對用戶的提問進行可回復性判斷,并給出用戶是否繼續或改變當前咨詢話題的引導行為,最終給出自然語言回復。相對于傳統的智能客服,這種新的交互方式可以極大地提升用戶的對話體驗和效率。
圖 3:QuAC 與其他機器閱讀理解數據集的多維度對比
圖 3 給出了 QuAC 與時下多個熱門機器閱讀理解數據集的詳細對比,可看出 QuAC 具有最豐富的數據特性,要求模型具有更強的上下文語義理解和對話邏輯推理能力。
京東 AI 研究院 EL-QA 模型斬獲新 SOTA
京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single Model)登頂 QuAC Leaderboard,全部三項指標均獲得第一名,其中特別是 HEQD(對話 Session 層面對比人類平均水平的指標)顯著領先之前最好表現。該結果的取得主要得益于我們在關鍵技術上的創新,包括大規模預訓練語言模型、知識遷移、多任務學習、數據增強、Beam-Search 解碼答案和 Deep Ranking 等。
擁有優質場景和廣闊應用價值的企業或機構在本次競賽中占據優勢。本次競賽從參賽隊伍到榜單分布,大多是在智能人機交互服務領域有重要相關業務的企業的實驗室。這也體現出,一方面,科技企業基于資源優勢正在核心技術研發方面走到前沿,而大學則聚焦于新問題新思想新方向的提出和中立的技術評價,學術界和企業界形成了良性的緊密合作。另一方面,這也表明,智能人機對話交互技術不僅具有重要的研究價值,也有重大的產業價值。
企業的全力加入使得此領域的技術競爭日益激烈,是兵家必爭之地。這次評測的對話式機器閱讀理解相關技術可廣泛應用于智能客服、營銷導購、人機協同、AI + 教育等產品中,帶來效率和體驗的直接提升。
據悉,京東 AI 研究院語音語言實驗室圍繞自然語言處理、語音與聲學、知識圖譜、人機對話與交互、多模態信息處理等前沿領域開展人工智能技術研究,近兩年已經在國際頂級學術會議和期刊上發表論文 50 多篇,獲得 IEEE Signal Processing Society 等最佳論文獎,在多個有影響力的國際競賽中獲得冠軍,同時也承擔了多項國家重點研發計劃。其研發的多項前沿技術也成功轉化落地,支撐了京東智聯云多個重要產品。此次研發的對話式機器閱讀理解相關技術部分已落地到了京東智聯云智能人機交互部的商城智能客服、商家智能客服、客戶服務數據分析平臺、智能寫作以及商品知識圖譜驅動的采購大腦等核心產品當中。
參考文獻
[1] Choi E, He H, Iyyer M, et al. Quac: Question answering in context[J]. arXiv preprint arXiv:1808.07036, 2018.
[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.
[3] Reddy S, Chen D, Manning C D. Coqa: A conversational question answering challenge[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 249-266.