出品 | CSDN(ID:CSDNnews)
日前,今年的機器學習國際頂級會議ICML(International Conference on machine Learning)公布論文接收情況。據統計,ICML 2020共提交4990篇論文,投稿數量再創新高,而最終接收論文1088篇,接收率21.8%。與往年相比,接收率逐年走低。
由螞蟻集團算法工程師胡斌斌、高級算法專家張志強、資深算法專家周俊和北京郵電大學教授石川聯合撰寫的《KGNN:Distributed Framework for Graph Neural Knowledge Representation》順利入選ICML2020 workshop(Bridge Between Perception and Reasoning: Graph Neural Networks & Beyond),該workshop由知名學者唐建、螞蟻集團研究員宋樂、斯坦福大學終身教授Jure Leskovec聯合舉辦,并邀請了人工智能奠基者之一的Yoshua Bengio進行了keynote報告,該workshop旨在將不同領域(如深度學習、邏輯/符號推理、統計關系學習和圖算法等)的研究人員聚集起來討論系統和系統智能之間的潛在接口和集成,探索理論基礎、模型和算法方面的新進展,沉淀新基準數據集和有影響力的應用。以下為該論文的解讀。
前言
知識表示學習主要用于將知識圖(KG)融入各種在線服務中以提升各個應用的性能。現有的知識表示學習方法雖然在性能上有了很大的提高,但它們忽略了高階結構和豐富的屬性信息,導致在語義豐富的知識圖譜上性能不佳。另外,這些方法不能進行歸納式的預測,也不能適用于大型工業圖。
為了解決這些問題,我們開發了一個新的框架KGNN在分布式學習系統中來充分利用知識數據進行表示學習。KGNN配置了基于GNN的編碼器和知識感知的解碼器,目的是以細粒度的方式將高階結構和屬性信息結合在一起,并保留知識圖譜中的關系模式。我們在三個數據集上進行了鏈接預測和三元組的分類實驗,驗證了該框架的有效性和可擴展性。
簡介
知識圖譜(KG)通常以三元組〈頭實體,關系,尾實體〉的形式表示實體及其豐富的異構關系。例如在圖1(a)中,三元組〈Bob, work_in, Apple〉表示關系work_in連接了兩個實體: Bob和Apple。知識圖譜因其豐富的結構化信息,在信息檢索、知識問答和推薦系統等諸多研究領域引起了廣泛關注。為了靈活地利用知識圖譜,通過知識表示學習來進行圖譜補全、對齊和推理已經成為一個新興的方向。
知識表示學習旨在將實體和關系映射到一個低維空間,并同時保留原始網絡的特定信息。這些方法可以大致分為平移距離式模型(如TransE、TransR等)和語義匹配式模型(如DistMult、ConvE等),分別利用基于距離和基于相似性的評分函數進行知識表示學習。
盡管這些方法在一定程度上提高了性能,但它們仍然存在一些局限性。首先,他們獨立處理每個三元組,并且豐富的屬性節點和邊通常被忽視,導致在語意豐富的知識圖譜上無法取到滿意的性能。其次,他們是天生的直推式(Transductive)模型,即無法對沒出現在訓練集中的實體進行預測。最后,這些方法無法處理包含數以百萬計的實體和關系的工業級的大規模知識圖譜。
為了解決這些問題,本文旨在建立一個可擴展的分布式知識圖表示框架,以靈活地提取豐富的知識,供下游應用使用。該框架需要滿足以下三個關鍵特性:(1)語義豐富: 高階結構和屬性信息能夠有效地保存原始圖的屬性。因此,我們的目標是把這些信息融入知識圖表示,全面捕捉知識圖譜中的豐富語義。(2)歸納式(Inductive):目前知識圖譜通常是不完整的,在真實的應用中,新實體將每天出現。這要求我們對未出現在訓練集中的實體進行動態預測。
(3)可擴展性:由于現實工業場景中的知識圖譜是非常大規模的,需要在分布式學習系統上實現可擴展的知識圖表示框架。為了綜合上述主要思想,我們提出了基于圖神經網絡的編碼器和知識感知解碼器的分布式圖神經知識表示框架KGNN。在圖神經網絡的幫助下,KGNN在歸納式的、端到端的框架中同時捕獲屬性信息和高階結構。
顯然,KGNN是一個靈活的框架,可以配備任意的GNN編碼器,本文引入了一種基于注意力機制的GNN來定位細粒度語義中重要的相關關系或結構。為了對真實的知識圖譜上進行有效的模型訓練和推理,我們在分布式學習系統上實現了KGNN,并揭示了其實現細節。我們在三個真實數據集上進行了鏈接預測和三元組分類任務的實驗,驗證了所提出的KGNN框架的有效性和可擴展性。
圖1 KGNN示意圖
KGNN模型
如圖1(b)所示,KGNN模型主要有兩部分構成,基于GNN的編碼器和知識感知的解碼器。
基于GNN的編碼器。我們采用圖神經網絡將結構知識和屬性編碼到實體表示中。具體來說,GNN通過聚合來自其鄰居的信息,遞歸地更新節點的表示。隨后,k次更新后的節點的最終表示會捕獲k跳鄰居內部的結構信息以及節點屬性。形式化上來講,我們可以通過聚合函數f(A)和更新函數f(U)來利用節點v的鄰居集合Nv計算出節點v的第k + 1次表示:
對于細粒度建模,我們引入了一個基于關注的GNN來衡量每個關系的各種潛在偏好。根據上述公式中實體表示的更新原則,我們首先將聚合函數f(A)表示為:
受跳躍知識(JumpingKnowledge)網絡思想的啟發,我們采用自適應深度函數靈活地多跳鄰居,以更好地實現結構感知表示。這里應用LSTM實現f(U)進行表示更新。因此,我們可以得到實體h的k + 1表示為:
其中ehk表示節點h的聚合信息,通過f(A)計算而來。
知識感知的解碼器。知識圖譜中鏈路預測的關鍵是利用觀測到的三元組來推斷對稱、反對稱、合成等關系模式。為了自適應地保留知識圖譜不同的關系模式,KGNN采用知識感知的評分函數作為解碼器。以TransH為例, 我們將三元組〈h, r, t〉通過K跳更新后的評分函數表示為s(eKh, er,eKt),呃,投影。然后通過基于間隔的負采樣目標函數端到端訓練KGNN:
分布式實現
現在我們探索KGNN的分布式實現,它為大規模知識圖表示提供了一個完整的解決方案。如圖1(c)所示,分布式KGNN由三部分組成:
圖的存儲系統。在分布式架構下,將整個知識圖以及相應的屬性信息存儲在節點上。在有效的數據壓縮技術的幫助下,它能夠服務于大型工業圖。
采樣器。主要包含了知識表示的負采樣器和子圖采樣器。負采樣器在一個有效三元組中隨機替換頭實體或尾實體,以生存相應的負三元組。然后,子圖采樣器將批量隨機收集每個實體的k跳鄰居集。值得注意的是,我們將子圖提供給KGNN,而不是完整的圖,這有助于減少時間和內存開銷。
訓練器。它由多個worker和參數服務器組成,由協調器控制。為了有效地更新參數,每個worker都從參數服務器提取參數,并在訓練期間獨立地更新它們。在一個特定的worker中,KGNN自然遵循這樣的工作流程:(1)預處理子圖并解析模型配置。(2)利用之前介紹的編碼器和解碼器,基于子圖生成實體和關系的表示。(3)優化一個特定的損失來指導模型的學習。
實驗
我們在WN18,FB15K和Alipay三個數據集上進行了實驗,具體在鏈路預測和三元組分類兩個任務上驗證了有效性。實驗數據集如下所示。
鏈路預測和三元組分類的結果如下所示:
另外,我們做了不同跳鄰居對模型性能的影響,如下所示,實驗結果驗證了高階信息的有效性,但過高的鄰居信息會導致over-smooth的問題,導致性能有所下降。
最后我們做了KGNN的性能試驗,如下所示。
如圖所示,在WN18K和FB15K這兩個數據集上。我們將worker數從2增加到16,可以明顯地加速KGNN的訓練。與此同時,隨著worker數量的增加,預測性能幾乎沒有損失。
結語
在本文中, 我們介紹了分布式的知識圖表示框架KGNN。它包含基于GNN的編碼器和知識感知的解碼器,可以同時利用圖譜的高階結構信息和屬性信息,并能保存圖譜中的關系模式。我們在分布式計算平臺上實現了KGNN,并用大量的試驗驗證了它的有效性和可擴展性。在未來的工作中,我們將致力于解決圖神經網絡在利用高階鄰居時遇到的over-smooth問題,以及如何對動態知識圖譜進行有效的表達。