近日,由KDD CUP與OGB(Open Graph Benchmark)聯合舉辦的首屆圖神經網絡大賽正式放榜,在DeepMind、微軟、螞蟻金服、UCLA等全球500多個頂尖企業、高校和實驗室的激烈競爭中,百度憑借飛槳圖學習框架PGL一路過關斬將,最終在全部三個賽道包攬了兩冠一亞。
本次大賽承辦方斯坦福大學 Jure Leskovec 教授宣布冠軍隊伍
據了解,KDD CUP是ACM SIGKDD組織的年度賽事,素有「大數據領域世界杯」之譽,是目前數據挖掘領域最高水平、最具影響力、規模最大的國際頂級賽事。而今年,KDD CUP與OGB聯合舉辦了第一屆OGB-LSC(OGB Large-Scale Challenge)比賽,提供來自真實世界的超大規模圖數據,來完成圖學習領域的節點分類、邊預測和圖回歸三大任務。
本次比賽采取「閉卷考試」,整個比賽周期只有2次提交模型結果機會,極其考驗參賽隊伍模型泛化能力,競賽難度極大。得益于百度在圖神經網絡的持續深耕,在本次大賽的三大賽道之中,百度飛槳圖學習框架PGL合計奪得大規模節點分類賽道冠軍、大規模圖關系預測賽道冠軍、化學分子圖性質預測賽道亞軍。
飛槳PGL奪冠頁面:https://ogb.stanford.edu/kddcup2021/results/
大規模節點分類賽道冠軍:引入基于異構關系的統一消息傳遞模型
OGB-LSC節點分類數據集,來源于真實世界的超大規模學術引用網絡MAG(Microsoft Academic Graph)。OGB官方提取了超2.4億的實體(包括論文、作者等),構建出包含16億邊關系的大規模異構圖。參賽選手需從異構圖中挖掘有效信息,預測出指定的arXiv論文的主題(總共包含153個主題,例如cs.LG 機器學習、q-bio.BM 生物分子等)。
目前,解決節點分類的圖學習方法主要包含兩類:一類是標簽傳遞算法,而另一類則是通過模型對多階鄰居特征進行聚合,并預測中心節點標簽的圖神經網絡。然而目前這兩種方法均有其局限性,無法最大限度的利用圖節點中的標簽信息。
為解決上述問題,飛槳 PGL 提出了統一消息傳遞模型UniMP,巧妙地利用了『標簽』掩蓋預測策略,使得模型可以在訓練和預測中,同時進行標簽傳遞和特征聚合,成功地將上述兩種圖學習方法統一到消息傳遞模型中,并在半監督節點分類任務上取得明顯提升。目前,相關論文已被IJCAI2021收錄,并成為目前節點分類任務中的主流的強基準。
R-UniMP:標簽與特征(圖中藍色能量)在統一的消息傳遞機制下進行傳播
針對本次的大規模異構圖,飛槳PGL進一步引入了基于異構關系的采樣方法與注意力融合機制,將UniMP升級成為R-UniMP,并且在飛槳并行計算框架基礎上實現了分布式大規模圖神經網絡模型的訓練和預測。實驗結果相對官方基線的驗證集準確率提升將近10個百分點!并最終在與DeepMind、微軟、螞蟻金服、清華等一眾國內外科技公司與學術機構的較量中摘得桂冠。
大規模圖關系預測賽道冠軍:提出20層的NOTE-RPS知識圖譜嵌入模型
本次邊預測任務為大規模知識圖譜中的關系預測。在知識圖譜中,通過連接不同實體的三元組(例如姚明-出生于 ->上海)來表示關于世界的事實知識。然而,這些大型知識圖譜并不完善,缺少實體之間的許多關系信息。
使用機器學習方法自動估算缺失的三元組可以顯著減少人工修補成本,從而提供了更全面的知識圖譜。本次比賽使用Wikidata知識圖譜,包含近9千萬的實體和5億的三元組,為至今數據規模最大的知識圖譜任務。
目前業界知識表示模型層出不窮,例如TransE、RotatE等。飛槳PGL基于大規模知識表示庫PGL-KE,對已有算法升級提出了Normalized Orthogonal Transforms Embedding(NOTE)模型,能夠對關系進行多維度建模,同時能在大規模場景下仍保持數值穩定性。
NOTE:歸一化正交轉換知識圖譜嵌入模型
其次,飛槳PGL提出的Relation-based Post Smoothing (RPS)圖神經網絡算法,對訓練完的NOTE模型進行后處理,并使用了20層的RPS模型,堪稱知識圖譜領域最深的圖神經網絡模型。基于NOTE+RPS大規模知識表示方案的實驗結果相對于官方提供的基準提升了12個百分點,并最終在與阿里巴巴、哈工大、中科大等團隊的較量中一舉奪魁,助力知識圖譜向實踐應用邁出了巨大一步。
化學分子圖性質預測賽道:利用分子3D構象構造自監督預訓練輔助任務
分子特性預測已被廣泛認為是計算藥物和材料發現中最關鍵的任務之一。基于DFT 量子物理計算的方法需要耗費大量時間才能有效預測多重分子性質。為了利用圖神經網絡強大的表達能力來預測分子性質,飛槳PGL與螺旋槳PaddleHelix生物計算框架聯合提出了LiteGEM模型,利用分子的3D構象構造自監督預訓練輔助任務,提升分子性質預測效果,并最終獲得亞軍。
應用落地:可支持更大規模產業應用,飛槳圖學習框架 PGL 迎來重大升級
除了在KDD CUP上全面開花,飛槳PGL也一直持續地致力于圖神經網絡算法創新以及更大規模的工業應用落地。
近日,飛槳PGL迎來重大升級,推出了萬億超大規模分布式圖引擎,本次KDD CUP 奪冠技術方案即是均基于該分布式圖引擎。分布式圖引擎研發的初衷也是希望圖學習算法可以在業界實現更大規模的產業應用,目前,百度已借助飛槳PGL在搜索、信息流推薦、金融風控、智能地圖、知識圖譜等多個場景實現數十項應用落地。
深度學習開發者峰會Wave Summit 2021萬億圖引擎發布現場
此外,飛槳PGL還與多個外部機構合作:網易云音樂在調研了大量開源方案后,也選擇了對大規模圖訓練更加友好的飛槳PGL作為云音樂推薦的圖神經網絡基礎框架。同時,飛槳PGL也助力科技創新2030「新一代人工智能」重大項目OpenKS知識計算引擎。
源于圖神經網絡對于復雜數據建模的便利以及其強大的表達能力,飛槳PGL也探究圖神經網絡與多個交叉學科的結合,包括構建大數據疫情預測系統,與飛槳螺旋槳PaddleHelix合作致力于化合物屬性預測,并在多個化合物預測榜單上取得 SOTA。
飛槳圖學習框架PGL
圖學習作為通用的人工智能算法之一,勢必成為智能時代新的基礎能力,賦能各行各業,助力智能經濟騰飛。現階段僅僅是圖學習熱潮的開始,未來還將有更加深度的技術產出,和更大規模的產業機會出現,扎根圖學習領域,持續為產業智慧化升級賦能,需要從現在就開始。