近日,在國(guó)際頂級(jí)圖學(xué)習(xí)標(biāo)準(zhǔn)OGB(Open Graph Benchmark)挑戰(zhàn)賽中,第四范式憑借 AutoML (自動(dòng)機(jī)器學(xué)習(xí))技術(shù),在與斯坦福大學(xué)、康奈爾大學(xué)、Facebook、阿里巴巴等國(guó)際頂尖高校與科技巨頭同場(chǎng)競(jìng)技中脫穎而出,以較大優(yōu)勢(shì)斬獲 ogbl-biokg 、ogbl-wikikg2兩項(xiàng)任務(wù)榜單第一 。
近年來(lái),知識(shí)圖譜因可挖掘?qū)嶓w之間的潛在關(guān)系、提供更高效的搜索結(jié)果,被廣泛應(yīng)用在智能搜索、智能問(wèn)答、社交網(wǎng)絡(luò)、金融風(fēng)控等諸多行業(yè)應(yīng)用中。作為知識(shí)圖譜領(lǐng)域重要的技術(shù)手段,圖學(xué)習(xí)已成為機(jī)器學(xué)習(xí)最重要的研究領(lǐng)域之一,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
OGB是目前公認(rèn)的圖學(xué)習(xí)基準(zhǔn)數(shù)據(jù)集代表,由斯坦福大學(xué)Jure Leskovec教授團(tuán)隊(duì)建立,于2019年國(guó)際頂級(jí)學(xué)術(shù)會(huì)議NeurIPS上正式開(kāi)源。其囊括了節(jié)點(diǎn)性質(zhì)預(yù)測(cè)、邊性質(zhì)鏈接預(yù)測(cè)、圖性質(zhì)預(yù)測(cè)等知識(shí)圖譜領(lǐng)域眾多權(quán)威賽題,以質(zhì)量高、規(guī)模大、場(chǎng)景復(fù)雜、難度高著稱(chēng) ,素有知識(shí)圖譜領(lǐng)域“ImageNet”之稱(chēng),成為眾多科技巨頭、科研院所和高校團(tuán)隊(duì)試驗(yàn)技術(shù)成色的試金石 。
此次,第四范式參與了ogbl-biokg、ogbl-wikikg2兩項(xiàng)數(shù)據(jù)量龐大且極具業(yè)務(wù)價(jià)值 的知識(shí)圖譜鏈接預(yù)測(cè)任務(wù),均在處理嘈雜、不完整知識(shí)圖譜等方面挑戰(zhàn)巨大。其中,ogbl-biokg包含多個(gè)海量生物醫(yī)學(xué)知識(shí)庫(kù),構(gòu)成了500多萬(wàn)個(gè)三元組(實(shí)體-關(guān)系-實(shí)體、實(shí)體-屬性-屬性值),在藥物屬性預(yù)測(cè)及生物醫(yī)學(xué)研究方面具有重要意義 。ogbl-wikikg2來(lái)源于Wikidata知識(shí)庫(kù),需要在1700多萬(wàn)個(gè)事實(shí)三元組中精準(zhǔn)預(yù)測(cè)實(shí)體間的潛在關(guān)系,可有效提升推薦系統(tǒng)、智能問(wèn)答等場(chǎng)景應(yīng)用效果 。
為了精準(zhǔn)理解數(shù)據(jù)集中復(fù)雜語(yǔ)義信息、挖掘潛在關(guān)系,業(yè)界通常以評(píng)分函數(shù)(SF)作為衡量知識(shí)圖譜中三元組可編程性的重要指標(biāo),但現(xiàn)有評(píng)分函數(shù)設(shè)計(jì)僅專(zhuān)注于某一類(lèi)語(yǔ)義模型,無(wú)法應(yīng)對(duì)實(shí)際應(yīng)用中千變?nèi)f化的知識(shí)圖譜任務(wù)場(chǎng)景。
受AutoML啟發(fā),第四范式本次采用AutoSF(自動(dòng)評(píng)分函數(shù))參賽,通過(guò)理解生物醫(yī)學(xué)、維基百科等復(fù)雜知識(shí)圖譜中的不同語(yǔ)義信息,設(shè)計(jì)出更符合場(chǎng)景認(rèn)知特性的評(píng)分函數(shù),實(shí)現(xiàn)在對(duì)應(yīng)任務(wù)上的性能突破。同時(shí),AutoSF設(shè)計(jì)的評(píng)分函數(shù)可高效利用模型參數(shù),在具有更小模型復(fù)雜度的基礎(chǔ)上,預(yù)測(cè)性能位居第一,以較大優(yōu)勢(shì)超過(guò) PairRE 、 TransE 、 ComplEx 、 RotatE 等其他知名評(píng)分函數(shù) 。