近日,信息檢索和數據挖掘領域的國際頂級學術會議CIKM公布了2022年Demo論文的錄用結果,容聯云人工智能實驗室(Cloopen Research)與南開大學合作的論文《DASH: An Agile Knowledge Graph System Disentangling Demands, Algorithms, Data Sources, and Humans》已被CIKM 2022錄用。
CIKM起始于1992年,是信息檢索和數據挖掘領域的國際頂級學術會議。
隨著人工智能的發展,知識圖譜已成為理解與利用多源異構數據的有效方法。通過實現“數據→知識→知識圖譜”的轉化,可有效支撐多樣化的下游應用,包括智能問答、信息檢索、內容推薦、金融風控、精準營銷獲客等。
近年來,以谷歌、百度、微軟為代表的頭部互聯網企業依托其“數據—業務—技術”的成熟閉環,已經成功實現了通用知識圖譜(General-purpose Knowledge Graphs)的構建與落地應用。
與頭部互聯網企業不同,多數企業需要構建并利用領域知識圖譜(Domain-specific Knowledge Graphs)來支撐不同的業務需求。與通用知識圖譜相比,領域知識圖譜更強調知識深度,是支持Al大腦深度思考的基礎,同時也是未來主要的增長點。通過知識圖譜技術來量化和刻畫企業在物理世界里的生產要素、經營活動、業務知識、業務規則等,是企業的數字孿生智能體。
然而,受技術和成本雙重約束,大多數中小型互聯網企業、非互聯網企業在構建并使用領域知識圖譜時仍然面臨許多挑戰:
挑戰1: 在知識圖譜構建階段,如何適應動態變化的知識類型(例如關系、事件、意見要素等)和知識模式(schema)?
挑戰2: 在知識圖譜應用階段,復雜的業務場景通常涉及多跳推理、數值計算等復雜查詢,如何準確應答?
挑戰3: 如何降低算法對人工標注的依賴,實現對新業務、新場景的快速響應?
面對上述挑戰,通用知識圖譜的成功經驗難以直接遷移到大多數企業。因此,構建一套低成本、可遷移的知識圖譜解決方案具有重要意義。
為了實現這一目標,論文提出了DASH設計理念(Disentangle Demands, Algorithms, data Sources, and Humans),即在知識圖譜構建與應用過程中將“業務、算法、數據、人力”解耦合,最大程度保證算法的標準化,降低企業接入知識圖譜的技術門檻。基于該設計理念,容聯云開發了一個低成本、可遷移的敏捷知識圖譜系統,該系統的整體架構如下圖所示。
容聯云知識圖譜系統整體架構
具體地,該系統配備了基于多輪機器閱讀理解的知識抽取方法(MRC- KE)、分層知識圖譜問答方法(Hi-KBQA)和半自動化數據積累方法等先進技術。這些算法具有出色的可遷移性和準確性,在面對新業務、新場景、新數據時,可快速適應少樣本、零樣本的情況,有效降低系統對人工標注的依賴,實現更快捷的部署實施。此外,平臺也允許用戶根據業務需求靈活提供“行業知識、業務知識”,進而實現便捷的“人機配合”。
該知識圖譜系統是容聯云在“通訊+AI”技術的雙輪驅動下的新突破,有效推動容聯云在自然語言理解、認知智能等方向的技術提升。未來,容聯云還將繼續深耕AI算法的深度研發,持續投入AI技術與智能化的場景應用挖掘,以領先的技術為企業的數智化升級賦能助力。