2022年9月16日,“掘力計劃”第24期活動在北京舉行,本期活動的主題是“大語言模型應用與實踐”。來自中國人民大學的劉勇教授作了題為《大規模圖學習中的圖對比學習方法與應用》的演講,向與會者介紹了圖對比學習在大規模圖學習中應用的相關技術。
劉勇教授來自中國人民大學,準聘副教授、博士生導師。博士畢業于天津大學。從事機器學習研究,特別關注統計機器學習、圖表示學習、自動機器學習等。發表高水平論文60多篇,其中以第一作者或通訊作者發表CCF A類文章30余篇,涵蓋機器學習領域頂級期刊 JMLR、TPAMI、Artificial Intelligence 和頂級會議 ICML,NeurIPS,ICLR 等。曾獲得中國科學院“青年創新促進會”會員(院人才)以及中國科學院信息工程研究所“引進優秀人才”稱號。擔任國際頂級會議 IJCAI 高級程序委員,NeurIPS、ICML、AAAI、ECAI 等程序委員。主持多項科研基金項目,包括國家自然科學基金青年基金、面上項目、中國科學院基礎前沿科學研究計劃、騰訊犀牛鳥基金、聯通聯合項目、華為聯合項目等。
視頻回放:https://juejin.cn/live/jpowermeetup24
一、圖機器學習介紹
圖(Graph)數據結構能夠建模實體之間的關系,是表示實體關聯的數據結構,因此越來越受到機器學習研究者的關注。
在社交網絡、知識圖譜、分子化學、蛋白質結構等多個領域,數據具有圖結構的特點。將這些圖結構數據用于機器學習,形成了圖神經網絡與圖機器學習。
圖機器學習專注于挖掘圖結構數據中的模式,并進行預測與決策。其與其他機器學習方法的區別在于,圖機器學習同時考慮特征和關系,而其他方法多只考慮獨立同分布特征。
二、圖對比學習方法
圖神經網絡雖然表現出色,但其訓練依賴大量標注數據。而獲得大量標注圖數據的成本非常高,因此研究者開始嘗試使用無標注數據進行圖神經網絡的預訓練。
圖對比學習通過構造正負樣本對進行模型訓練,屬于自監督學習方法之一。它不需要人工標注數據,通過在輸入圖中進行擾動,產生正負樣本對,使模型學習到有用的圖表征。
具體做法包括:
● 特征遮擋:隨機遮擋節點特征;
● 邊刪除:隨機刪除邊;
● 子圖采樣:從大圖中隨機采樣子圖。
經過擾動的兩個圖作為正樣本對,原圖和無關圖作為負樣本對,通過拉近正樣本距離、拉大負樣本距離進行訓練。
圖對比學習可產生高質量的圖預訓練模型,對下游任務具有很好的遷移性,可顯著提高效果。目前已在分子預測、社交網絡等多個領域取得進展。
三、圖對比學習中的對齊問題
通過理論分析和實驗發現,圖對比學習在使正負樣本區分開時,也同時增大了正樣本之間的距離,導致表示過于對齊,缺乏泛化能力。
為評估圖對比學習對下游任務的影響,使用互信息的方法建立了對比學習目標與下游性能之間的上界。實驗證明,減小對比學習目標同時保持增強效果,可以獲得更好的泛化性能。
四、下一步工作
當前的研究工作主要集中在:
(1)尋找大規模通用圖學習基準,類似 ImageNet;
(2)通過數據預處理增強模型泛化能力;
(3)加強理論分析,提高模型穩定性。
期待圖對比學習和圖神經網絡能在更多領域實現突破,真正達到乃至超過大語言模型和大視覺模型的效果。
本次劉勇教授的演講從圖機器學習的發展演變出發,重點介紹了圖對比學習在訓練大規模圖神經網絡模型中的應用,并分析了當前的問題與挑戰,對于從業者了解圖神經網絡與對比學習的發展非常有價值。這也充分體現了“掘力計劃”活動致力連接學術前沿與產業實踐的價值。
掘力計劃
掘力計劃由稀土掘金技術社區發起,致力于打造一個高品質的技術分享和交流的系列品牌。聚集國內外頂尖的技術專家、開發者和實踐者,通過線下沙龍、閉門會、公開課等多種形式分享最前沿的技術動態。