螞蟻金服推出分布式的圖神經(jīng)知識表示框架，性能和可擴展性俱佳-魔扣目錄

出品 | CSDN（ID:CSDNnews）

日前，今年的機器學習國際頂級會議ICML（International Conference on machine Learning）公布論文接收情況。據(jù)統(tǒng)計，ICML 2020共提交4990篇論文，投稿數(shù)量再創(chuàng)新高，而最終接收論文1088篇，接收率21.8%。與往年相比，接收率逐年走低。

由螞蟻集團算法工程師胡斌斌、高級算法專家張志強、資深算法專家周俊和北京郵電大學教授石川聯(lián)合撰寫的《KGNN：Distributed Framework for Graph Neural Knowledge Representation》順利入選ICML2020 workshop(Bridge Between Perception and Reasoning: Graph Neural Networks & Beyond)，該workshop由知名學者唐建、螞蟻集團研究員宋樂、斯坦福大學終身教授Jure Leskovec聯(lián)合舉辦，并邀請了人工智能奠基者之一的Yoshua Bengio進行了keynote報告，該workshop旨在將不同領域(如深度學習、邏輯/符號推理、統(tǒng)計關系學習和圖算法等)的研究人員聚集起來討論系統(tǒng)和系統(tǒng)智能之間的潛在接口和集成，探索理論基礎、模型和算法方面的新進展，沉淀新基準數(shù)據(jù)集和有影響力的應用。以下為該論文的解讀。

前言

知識表示學習主要用于將知識圖(KG)融入各種在線服務中以提升各個應用的性能。現(xiàn)有的知識表示學習方法雖然在性能上有了很大的提高，但它們忽略了高階結構和豐富的屬性信息，導致在語義豐富的知識圖譜上性能不佳。另外，這些方法不能進行歸納式的預測，也不能適用于大型工業(yè)圖。

為了解決這些問題，我們開發(fā)了一個新的框架KGNN在分布式學習系統(tǒng)中來充分利用知識數(shù)據(jù)進行表示學習。KGNN配置了基于GNN的編碼器和知識感知的解碼器，目的是以細粒度的方式將高階結構和屬性信息結合在一起，并保留知識圖譜中的關系模式。我們在三個數(shù)據(jù)集上進行了鏈接預測和三元組的分類實驗，驗證了該框架的有效性和可擴展性。

簡介

知識圖譜(KG)通常以三元組⟨頭實體,關系，尾實體⟩的形式表示實體及其豐富的異構關系。例如在圖1(a)中,三元組⟨Bob, work_in, Apple⟩表示關系work_in連接了兩個實體: Bob和Apple。知識圖譜因其豐富的結構化信息，在信息檢索、知識問答和推薦系統(tǒng)等諸多研究領域引起了廣泛關注。為了靈活地利用知識圖譜,通過知識表示學習來進行圖譜補全、對齊和推理已經(jīng)成為一個新興的方向。

知識表示學習旨在將實體和關系映射到一個低維空間，并同時保留原始網(wǎng)絡的特定信息。這些方法可以大致分為平移距離式模型(如TransE、TransR等)和語義匹配式模型(如DistMult、ConvE等)，分別利用基于距離和基于相似性的評分函數(shù)進行知識表示學習。

盡管這些方法在一定程度上提高了性能，但它們?nèi)匀淮嬖谝恍┚窒扌浴Ｊ紫?他們獨立處理每個三元組，并且豐富的屬性節(jié)點和邊通常被忽視,導致在語意豐富的知識圖譜上無法取到滿意的性能。其次,他們是天生的直推式(Transductive)模型,即無法對沒出現(xiàn)在訓練集中的實體進行預測。最后,這些方法無法處理包含數(shù)以百萬計的實體和關系的工業(yè)級的大規(guī)模知識圖譜。

為了解決這些問題，本文旨在建立一個可擴展的分布式知識圖表示框架，以靈活地提取豐富的知識，供下游應用使用。該框架需要滿足以下三個關鍵特性:(1)語義豐富: 高階結構和屬性信息能夠有效地保存原始圖的屬性。因此,我們的目標是把這些信息融入知識圖表示,全面捕捉知識圖譜中的豐富語義。(2)歸納式(Inductive):目前知識圖譜通常是不完整的,在真實的應用中，新實體將每天出現(xiàn)。這要求我們對未出現(xiàn)在訓練集中的實體進行動態(tài)預測。

(3)可擴展性:由于現(xiàn)實工業(yè)場景中的知識圖譜是非常大規(guī)模的，需要在分布式學習系統(tǒng)上實現(xiàn)可擴展的知識圖表示框架。為了綜合上述主要思想，我們提出了基于圖神經(jīng)網(wǎng)絡的編碼器和知識感知解碼器的分布式圖神經(jīng)知識表示框架KGNN。在圖神經(jīng)網(wǎng)絡的幫助下，KGNN在歸納式的、端到端的框架中同時捕獲屬性信息和高階結構。

顯然，KGNN是一個靈活的框架，可以配備任意的GNN編碼器，本文引入了一種基于注意力機制的GNN來定位細粒度語義中重要的相關關系或結構。為了對真實的知識圖譜上進行有效的模型訓練和推理，我們在分布式學習系統(tǒng)上實現(xiàn)了KGNN，并揭示了其實現(xiàn)細節(jié)。我們在三個真實數(shù)據(jù)集上進行了鏈接預測和三元組分類任務的實驗，驗證了所提出的KGNN框架的有效性和可擴展性。

圖1 KGNN示意圖

KGNN模型

如圖1(b)所示，KGNN模型主要有兩部分構成，基于GNN的編碼器和知識感知的解碼器。

基于GNN的編碼器。我們采用圖神經(jīng)網(wǎng)絡將結構知識和屬性編碼到實體表示中。具體來說，GNN通過聚合來自其鄰居的信息，遞歸地更新節(jié)點的表示。隨后，k次更新后的節(jié)點的最終表示會捕獲k跳鄰居內(nèi)部的結構信息以及節(jié)點屬性。形式化上來講，我們可以通過聚合函數(shù)f^(A)和更新函數(shù)f^(U)來利用節(jié)點v的鄰居集合N_v計算出節(jié)點v的第k + 1次表示:

對于細粒度建模，我們引入了一個基于關注的GNN來衡量每個關系的各種潛在偏好。根據(jù)上述公式中實體表示的更新原則，我們首先將聚合函數(shù)f^(A)表示為:

受跳躍知識(JumpingKnowledge)網(wǎng)絡思想的啟發(fā)，我們采用自適應深度函數(shù)靈活地多跳鄰居，以更好地實現(xiàn)結構感知表示。這里應用LSTM實現(xiàn)f^(U)進行表示更新。因此，我們可以得到實體h的k + 1表示為:

其中e_h^k表示節(jié)點h的聚合信息，通過f^(A)計算而來。

知識感知的解碼器。知識圖譜中鏈路預測的關鍵是利用觀測到的三元組來推斷對稱、反對稱、合成等關系模式。為了自適應地保留知識圖譜不同的關系模式，KGNN采用知識感知的評分函數(shù)作為解碼器。以TransH為例, 我們將三元組⟨h, r, t⟩通過K跳更新后的評分函數(shù)表示為s(e^K_h, e_r,e^K_t),呃,投影。然后通過基于間隔的負采樣目標函數(shù)端到端訓練KGNN：

分布式實現(xiàn)

現(xiàn)在我們探索KGNN的分布式實現(xiàn)，它為大規(guī)模知識圖表示提供了一個完整的解決方案。如圖1(c)所示，分布式KGNN由三部分組成:

圖的存儲系統(tǒng)。在分布式架構下，將整個知識圖以及相應的屬性信息存儲在節(jié)點上。在有效的數(shù)據(jù)壓縮技術的幫助下，它能夠服務于大型工業(yè)圖。

采樣器。主要包含了知識表示的負采樣器和子圖采樣器。負采樣器在一個有效三元組中隨機替換頭實體或尾實體，以生存相應的負三元組。然后，子圖采樣器將批量隨機收集每個實體的k跳鄰居集。值得注意的是，我們將子圖提供給KGNN，而不是完整的圖，這有助于減少時間和內(nèi)存開銷。

訓練器。它由多個worker和參數(shù)服務器組成，由協(xié)調(diào)器控制。為了有效地更新參數(shù)，每個worker都從參數(shù)服務器提取參數(shù)，并在訓練期間獨立地更新它們。在一個特定的worker中，KGNN自然遵循這樣的工作流程:(1)預處理子圖并解析模型配置。(2)利用之前介紹的編碼器和解碼器，基于子圖生成實體和關系的表示。(3)優(yōu)化一個特定的損失來指導模型的學習。

實驗

我們在WN18，F(xiàn)B15K和Alipay三個數(shù)據(jù)集上進行了實驗，具體在鏈路預測和三元組分類兩個任務上驗證了有效性。實驗數(shù)據(jù)集如下所示。

鏈路預測和三元組分類的結果如下所示：

另外，我們做了不同跳鄰居對模型性能的影響，如下所示，實驗結果驗證了高階信息的有效性，但過高的鄰居信息會導致over-smooth的問題，導致性能有所下降。

最后我們做了KGNN的性能試驗，如下所示。

如圖所示，在WN18K和FB15K這兩個數(shù)據(jù)集上。我們將worker數(shù)從2增加到16，可以明顯地加速KGNN的訓練。與此同時，隨著worker數(shù)量的增加，預測性能幾乎沒有損失。

結語

在本文中, 我們介紹了分布式的知識圖表示框架KGNN。它包含基于GNN的編碼器和知識感知的解碼器，可以同時利用圖譜的高階結構信息和屬性信息，并能保存圖譜中的關系模式。我們在分布式計算平臺上實現(xiàn)了KGNN，并用大量的試驗驗證了它的有效性和可擴展性。在未來的工作中，我們將致力于解決圖神經(jīng)網(wǎng)絡在利用高階鄰居時遇到的over-smooth問題，以及如何對動態(tài)知識圖譜進行有效的表達。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

螞蟻金服推出分布式的圖神經(jīng)知識表示框架，性能和可擴展性俱佳

數(shù)獨大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數(shù)有氧達人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓練成績評定2018-06-03