8月14日至18日,國際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì) KDD 2021在線上正式舉行。此前本屆KDD入選論文已經(jīng)揭曉,百度被收錄的多篇論文,其突出的特點(diǎn)是學(xué)術(shù)研究與技術(shù)應(yīng)用緊密結(jié)合,再次展現(xiàn)百度在AI領(lǐng)域的技術(shù)實(shí)力。
ACM SIGKDD(簡稱KDD)國際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)至今已連續(xù)舉辦了26屆,是世界數(shù)據(jù)挖掘最高級(jí)別的學(xué)術(shù)會(huì)議之一,有數(shù)據(jù)挖掘領(lǐng)域“世界杯”之稱,每年吸引了大量數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)和人工智能等領(lǐng)域的研究學(xué)者、從業(yè)人員參與。
百度在AI技術(shù)方向多年創(chuàng)新積累,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)也是重點(diǎn)關(guān)注和持續(xù)投入的相關(guān)領(lǐng)域,并擁有多項(xiàng)技術(shù)成果和應(yīng)用落地案例。在多年為KDD輸送優(yōu)質(zhì)論文的基礎(chǔ)上,百度今年的被收錄論文再次體現(xiàn)了技術(shù)與應(yīng)用緊密融合的趨勢。
生物計(jì)算與醫(yī)療:生命健康里的AI新可能
在與人類息息相關(guān)的生命健康領(lǐng)域,百度也取得了長足進(jìn)步:在AI+醫(yī)療多個(gè)方向上探索,構(gòu)建醫(yī)療AI中臺(tái)、面向醫(yī)療場景提供各種AI解決方案;更進(jìn)一步尋覓生物計(jì)算的密碼,推出生物計(jì)算平臺(tái)螺旋槳PaddleHelix。此次KDD 2021中,百度發(fā)表了論文聚焦生命健康領(lǐng)域,提出了相關(guān)的新型圖神經(jīng)網(wǎng)絡(luò)模型和醫(yī)學(xué)實(shí)體關(guān)系循證框架。
1. 三維結(jié)構(gòu)感知的交互式圖神經(jīng)網(wǎng)絡(luò) —— 用于蛋白質(zhì)-配體親和力預(yù)測的新型圖神經(jīng)網(wǎng)絡(luò)模型
Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity
藥物設(shè)計(jì)的一個(gè)關(guān)鍵步驟是準(zhǔn)確的預(yù)測蛋白質(zhì)-配體的親和力(protein-ligand binding affinity)。最近的研究進(jìn)展已經(jīng)證明,使用圖神經(jīng)網(wǎng)絡(luò) (GNNs) 來學(xué)習(xí)蛋白質(zhì)-配體復(fù)合物(protein-ligand complexes)的表示,比傳統(tǒng)方法可以更準(zhǔn)確地預(yù)測親和力。然而,現(xiàn)有的模型通常將蛋白質(zhì)-配體復(fù)合物視為拓?fù)鋱D,并沒有充分利用分子的三維結(jié)構(gòu)信息。同時(shí)GNN模型也忽略了原子之間基本的遠(yuǎn)距離相互作用。為此,我們提出了一種新型的三維結(jié)構(gòu)感知的交互式圖神經(jīng)網(wǎng)絡(luò) (SIGN),它由兩個(gè)部分組成:基于極坐標(biāo)的圖注意力層 (PGAL) 和成對(duì)交互式池化層 (PiPool)。具體來說,PGAL層首先迭代執(zhí)行節(jié)點(diǎn)-邊聚合過程以更新節(jié)點(diǎn)和邊的表征,在這個(gè)過程可以同時(shí)保留原子之間的距離和角度信息。然后,SIGN可以通過PiPool層來對(duì)交互邊進(jìn)行池化操作,隨后通過重建交互矩陣的學(xué)習(xí)任務(wù)來反映蛋白質(zhì)-配體的全局交互信息。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了SIGN預(yù)測效果的優(yōu)越性。
2. 基于大規(guī)模機(jī)器閱讀理解的醫(yī)學(xué)實(shí)體關(guān)系循證
Medical Entity Relation Verification with Large-scale Machine Reading Comprehension
醫(yī)學(xué)實(shí)體關(guān)系驗(yàn)證是構(gòu)建企業(yè)級(jí)醫(yī)學(xué)知識(shí)圖譜的關(guān)鍵步驟。現(xiàn)有的信息抽取的方法專注于實(shí)體關(guān)系的挖掘,但并不能對(duì)挖掘的關(guān)系提供有效的循證支撐,這在真實(shí)醫(yī)學(xué)應(yīng)用場景下是不可接受的。因此,設(shè)計(jì)一種以循證為基礎(chǔ)的醫(yī)學(xué)實(shí)體關(guān)系驗(yàn)證框架是十分必要的。
針對(duì)上述場景,我們提出了一種基于大規(guī)模機(jī)器閱讀理解技術(shù)的醫(yī)學(xué)實(shí)體關(guān)系循證框架。該框架中我們?cè)O(shè)計(jì)了多種創(chuàng)新性的方法和模塊來提高醫(yī)學(xué)實(shí)體關(guān)系循證的效率和準(zhǔn)確率。比如,為了解決醫(yī)學(xué)實(shí)體的多樣性和變體問題,我們提出了一種近義詞感知(synonym-aware)的召回模型;為了更好的利用醫(yī)學(xué)的領(lǐng)域知識(shí),我們創(chuàng)造性的設(shè)計(jì)了基于關(guān)系感知(relation-aware)的證據(jù)探測模塊和基于醫(yī)學(xué)本體增強(qiáng)(medical ontology-enhanced)的聚合模塊,來共同提高整體循證模型的效果。此外,為了解決證據(jù)標(biāo)簽缺乏的問題,我們提出了一種新穎的基于交互協(xié)調(diào)訓(xùn)練的新方法(interactive-collaborative training)來提升標(biāo)注效率,提升證據(jù)準(zhǔn)確率。通過實(shí)驗(yàn)驗(yàn)證,我們提出的循證框架超越多個(gè)現(xiàn)有的基于事實(shí)驗(yàn)證的最好基線方法(state-of-the-art baselines)。該框架已經(jīng)應(yīng)用在了百度臨床輔助系統(tǒng)(CDSS)上,多方位支撐CDSS產(chǎn)品矩陣的可解釋循證,幫助了上萬名醫(yī)生。
POI檢索、推薦等為用戶提供更好、更便捷的智能化位置服務(wù)
作為國內(nèi)智能化位置服務(wù)的代表產(chǎn)品之一,百度地圖日均位置服務(wù)請(qǐng)求已突破了1200億次。
怎樣讓用戶在使用百度地圖時(shí)能夠獲得更好、更快、更方便的服務(wù)?KDD 2021中選論文中,百度延續(xù)以往在百度地圖方面的技術(shù)研究、進(jìn)行了升級(jí)和創(chuàng)新,覆蓋POI即時(shí)檢索、多語言POI檢索、POI推薦和基于自監(jiān)督元學(xué)習(xí)的路線耗時(shí)預(yù)估辦法等。
3. MST-PAC:基于元學(xué)習(xí)的時(shí)空個(gè)性化POI即時(shí)檢索
Meta-Learned Spatial-Temporal POI Auto-Completion for the Search Engine at Baidu Maps
POI即時(shí)檢索(POI Auto-Completion)是百度地圖POI搜索引擎的特色功能之一。POI即時(shí)檢索旨在幫助用戶以最少的輸入(理想情況下只需要用戶輸入一個(gè)字符),在搜索結(jié)果列表頁的首位即時(shí)給出用戶想找的POI,因此能夠大幅降低輸入成本并顯著提升搜索效率。POI即時(shí)檢索效果不僅與用戶輸入的字符以及輸入習(xí)慣有關(guān),也與用戶發(fā)起檢索的時(shí)間與空間相關(guān)。統(tǒng)計(jì)數(shù)據(jù)顯示17.9%的地圖用戶在不同的時(shí)間或地點(diǎn)使用過相同的前綴尋找過不同的POI。考慮到時(shí)空數(shù)據(jù)分布的不均衡性,我們提出了一種基于元學(xué)習(xí)的時(shí)空個(gè)性化POI即時(shí)檢索方法,并使用高效MapReduce算法對(duì)其進(jìn)行訓(xùn)練(縮寫為MST-PAC)。MST-PAC能夠顯著克服時(shí)空數(shù)據(jù)分布不均的問題,并能以較少的訓(xùn)練樣本快速適應(yīng)冷啟動(dòng)的時(shí)空?qǐng)鼍啊ST-PAC已在百度地圖成功部署,每天處理數(shù)十億檢索請(qǐng)求,這表明MST-PAC是一種具有實(shí)用價(jià)值且能夠大規(guī)模落地的POI即時(shí)檢索工業(yè)解決方案。
4. 基于異構(gòu)圖與注意力匹配網(wǎng)絡(luò)的多語言POI檢索
HGAMN: Heterogeneous Graph Attention Matching Network for Multilingual POI Retrieval at Baidu Maps
多語言POI檢索旨在幫助用戶使用自己熟悉的語言查找到由其他語言所描述的POI。該功能在出境旅游時(shí)尤為重要,因?yàn)楸镜豍OI往往缺乏多語言翻譯,要用完全陌生的語言進(jìn)行查詢對(duì)大部分用戶來說不太現(xiàn)實(shí)。數(shù)據(jù)稀疏是多語言檢索任務(wù)面臨的挑戰(zhàn)之一。為此,我們提出了一種基于異構(gòu)圖的注意力匹配網(wǎng)絡(luò)(HGAMN)。首先,在異構(gòu)圖的幫助下,我們能夠有效建立起低頻POI與高頻POI之間,以及POI與其不同語言的查詢表達(dá)之間的關(guān)聯(lián)。其次,我們使用基于注意力的網(wǎng)絡(luò)對(duì)該圖的節(jié)點(diǎn)表示進(jìn)行學(xué)習(xí)后,能夠顯著緩解數(shù)據(jù)稀疏問題。HGAMN已在百度地圖成功部署,每天響應(yīng)數(shù)億搜索請(qǐng)求,這表明HGAMN是一種實(shí)用且魯棒的多語言POI檢索工業(yè)解決方案。
5. SSML: 基于自監(jiān)督元學(xué)習(xí)的在途路線耗時(shí)預(yù)估方法
SSML: Self-Supervised Meta-Learner for En Route Travel Time Estimation at Baidu Maps
路線耗時(shí)預(yù)估旨在根據(jù)路線和出發(fā)時(shí)間預(yù)測用戶的到達(dá)時(shí)間,是地圖產(chǎn)品必不可少的基礎(chǔ)功能之一。在途路線耗時(shí)預(yù)估是路線耗時(shí)預(yù)估在用戶駕駛過程中的細(xì)分場景任務(wù),旨在估算出從用戶當(dāng)前位置到目的地的剩余時(shí)間。然而,現(xiàn)有方法未考慮從起點(diǎn)到當(dāng)前位置的用戶駕駛行為,從而很難快速適應(yīng)用戶的駕駛習(xí)慣,并據(jù)此及時(shí)調(diào)整剩余的預(yù)估耗時(shí)。為此,本文提出利用已行駛路線所觀察到的少量用戶駕駛行為,來提升在途路線耗時(shí)預(yù)估的準(zhǔn)確率。我們將該任務(wù)建模為一個(gè)小樣本學(xué)習(xí)問題,把已行駛路線中觀察到的用戶行為作為訓(xùn)練樣本,同時(shí)把剩余路線中未發(fā)生的行為作為測試樣本。我們提出了一種基于自監(jiān)督元學(xué)習(xí)的在途路線耗時(shí)預(yù)估方法(SSML),并使用自監(jiān)督學(xué)習(xí)進(jìn)行數(shù)據(jù)增強(qiáng),從而得以快速適應(yīng)用戶的駕駛行為、提升模型的預(yù)測效果。基于百度地圖大規(guī)模真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明,SSML是一種具有實(shí)用價(jià)值與穩(wěn)健性的在途路線耗時(shí)預(yù)估工業(yè)解決方案。
6. CHAML:基于課程式元學(xué)習(xí)框架的POI推薦技術(shù)
Curriculum Meta-Learning for Next POI Recommendation
POI推薦,作為廣受用戶歡迎的POI發(fā)現(xiàn)方式,是百度地圖的特色功能之一。該功能旨在結(jié)合當(dāng)前的時(shí)空?qǐng)鼍昂陀脩羰褂昧?xí)慣,快速發(fā)現(xiàn)其潛在感興趣的POI。但是,由于『用戶-POI』交互的天然長尾效應(yīng),現(xiàn)有技術(shù)很難為數(shù)據(jù)稀疏的冷啟動(dòng)城市提供令人滿意的POI推薦。本文提出了一種將隱藏在豐富數(shù)據(jù)中的知識(shí)從熱門城市遷移到冷啟動(dòng)城市的構(gòu)想。為了達(dá)成這一構(gòu)想,我們?cè)O(shè)計(jì)了一種新的課程式元學(xué)習(xí)(CHAML)框架。CHAML框架能夠分別從城市和用戶兩個(gè)層面,考慮樣本的訓(xùn)練難度,并以此來增強(qiáng)元學(xué)習(xí)訓(xùn)練過程。同時(shí),我們?cè)O(shè)計(jì)了一種由易到難的課程式學(xué)習(xí)方案,用于樣本抽樣,以幫助元學(xué)習(xí)模型收斂到更好的狀態(tài)。目前,CHAML已經(jīng)用于百度地圖的POI推薦業(yè)務(wù),并且取得顯著的應(yīng)用效果。
新技術(shù)助力百度搜索引擎性能與效果提升
如何進(jìn)一步優(yōu)化提升百度搜索引擎的體驗(yàn)和效率,是百度技術(shù)人員一直關(guān)注的問題。此次KDD 2021百度中選論文中,有數(shù)篇圍繞百度搜索引擎性能效果提升探討了最新技術(shù)研究成果,包含使用百度先進(jìn)的中文預(yù)訓(xùn)練語言模型文心(ERNIE),快速近鄰檢索(ANN)和快速最大內(nèi)積檢索(MIPS),高效智能在線推理系統(tǒng)JiZhi(極智)等。
7. 基于預(yù)訓(xùn)練語言模型的百度搜索排序
Pre-trained Language Model based Ranking in Baidu Search
排序作為搜索的核心,在滿足用戶的信息需求方面起著至關(guān)重要的作用。近來,基于預(yù)訓(xùn)練語言模型 (PLM) 的微調(diào)方法取得了當(dāng)前最好的效果。然而,在大規(guī)模搜索引擎中應(yīng)用基于PLM的排序模型卻并不容易:1. PLM的計(jì)算成本過高,尤其是對(duì)于排序中的長文本,限制了他們?cè)诘脱訒r(shí)系統(tǒng)中的部署;2. 現(xiàn)有的預(yù)訓(xùn)練目標(biāo)與相關(guān)性無關(guān),直接應(yīng)用相關(guān)性無關(guān)的PLM模型,是限制基于PLM的排序模型的另一個(gè)主要障礙;3. 現(xiàn)有的排序模型需要和其他排序模型共同應(yīng)用,因此模型與其他模型的兼容性對(duì)于一個(gè)排序系統(tǒng)來說也至關(guān)重要。
在本工作中,我們提出了一系列如何成功部署最先進(jìn)的中文預(yù)訓(xùn)練語言模型(ERNIE)的技術(shù)。首先,我們闡明了如何高效地抽取文檔的摘要,并提出了能強(qiáng)大的Pyramid-ERNIE 架構(gòu)將查詢、標(biāo)題和摘要三者建模。然后,我們提出了一個(gè)范式來精細(xì)地利用大規(guī)模的有噪聲和偏見的點(diǎn)擊后行為數(shù)據(jù)進(jìn)行面向相關(guān)性的預(yù)訓(xùn)練。其次,我們還提出了一種為在線排名系統(tǒng)量身定制的人工錨定微調(diào)策略,旨在保證基于PLM的排序模型和其他模塊的兼容性。最后,大量的離線和在線實(shí)驗(yàn)結(jié)果表明,所提出的方法可以顯著提高了搜索引擎的性能。
8. 預(yù)訓(xùn)練語言模型在百度大規(guī)模網(wǎng)頁召回中的應(yīng)用
Pre-trained Language Model for Web-scale Retrieval in Baidu Search
召回是網(wǎng)頁搜索中的重要階段,其功能在于從海量網(wǎng)頁庫中找到一個(gè)相對(duì)較小的相關(guān)候選集。其中,基于語義相關(guān)的召回有助于展現(xiàn)更多高質(zhì)量的搜索結(jié)果給用戶。但是,搭建和部署一個(gè)高效的語義召回模型,在搜索引擎業(yè)務(wù)中一直面臨著諸多挑戰(zhàn)。本文介紹了目前百度搜索中所使用的基于預(yù)訓(xùn)練語言模型的召回系統(tǒng)。此系統(tǒng)采用了百度自研的中文預(yù)訓(xùn)練語言ERNIE,通過應(yīng)用基于多層Transformer的模型結(jié)構(gòu),以及多階段的訓(xùn)練流程,賦予了召回系統(tǒng)強(qiáng)大的語義匹配能力。同時(shí),本文還介紹了基于預(yù)訓(xùn)練的召回模型在整個(gè)召回系統(tǒng)中的工作流程。通過嚴(yán)謹(jǐn)?shù)碾x線和線上實(shí)驗(yàn)驗(yàn)證,基于預(yù)訓(xùn)練語言模型的召回系統(tǒng)已全量部署在百度搜索業(yè)務(wù)中,提升了百度搜索的整體效果。
9. 基于模調(diào)節(jié)近鄰圖的最大內(nèi)積檢索
Norm Adjusted Proximity Graph for Fast Inner Product Retrieval
快速近鄰檢索(ANN)和快速最大內(nèi)積檢索(MIPS)是工業(yè)界超大規(guī)模排序系統(tǒng)的核心,在搜索引擎公司的各項(xiàng)主要業(yè)務(wù)中發(fā)揮了巨大作用。有關(guān)ANN和MIPS的各項(xiàng)前沿研究在百度已經(jīng)有了很長的歷史。從2019年開始,通過學(xué)術(shù)論文百度逐步而系統(tǒng)地對(duì)外公開了自主開發(fā)的各項(xiàng)ANN和MIPS核心技術(shù)。這篇KDD 2021論文就是其中之一。
最大內(nèi)積檢索(MIPS)旨在快速查找與檢索向量(Query)內(nèi)積最大的候選向量,原本是學(xué)術(shù)界和工業(yè)界的一個(gè)重大難題。最大內(nèi)積檢索之所以具有挑戰(zhàn)是因?yàn)閮?nèi)積不符合三角關(guān)系,即內(nèi)積不是度量標(biāo)準(zhǔn)(Metric Measure)。傳統(tǒng)的快速向量檢索技術(shù)多為Metric Measure所設(shè)計(jì),如歐式距離和余弦距離。這些傳統(tǒng)方法并不適用于最大內(nèi)積檢索。比如針對(duì)Metric Measure效果非常好的圖索引方法就不能直接應(yīng)用到最大內(nèi)積檢索中。在本文中我們提出模調(diào)節(jié)圖索引結(jié)構(gòu),將針對(duì)Metric Measure的圖索引結(jié)構(gòu)擴(kuò)展到最大內(nèi)積檢索任務(wù)中。大量實(shí)驗(yàn)表明,該方法相比于之前有代表性的內(nèi)積檢索方法,有很大的性能優(yōu)勢。我們提出的方法NAPG相比于之前有代表性的MIPS方法ip-NSW,Greedy-MIPS和Rang-LSH,在檢索性能上有巨大優(yōu)勢。在同等召回率水平上,該方法可以處理的查詢數(shù)遠(yuǎn)多于其他方法。
10. JIZHI:百度面向網(wǎng)絡(luò)應(yīng)用的實(shí)時(shí)高效模型預(yù)估系統(tǒng)
JIZHI: A Fast and Cost-Effective Model-As-A-Service System for Web-Scale Online Inference at Baidu
對(duì)于來自數(shù)億級(jí)用戶的巨量預(yù)估請(qǐng)求,如何能夠以超低成本支撐起超大規(guī)模離散稀疏深度模型進(jìn)行高效的實(shí)時(shí)在線推理仍然具有極大挑戰(zhàn)性。在本文中,我們構(gòu)建了一套高效智能在線推理系統(tǒng)JiZhi(極智),將每個(gè)請(qǐng)求的推理過程轉(zhuǎn)換為一個(gè)階段式的事件驅(qū)動(dòng)處理流(SEDP),創(chuàng)新性的以全局最優(yōu)視角自適應(yīng)精細(xì)化調(diào)整各個(gè)階段最合理的架構(gòu)算法和參數(shù),動(dòng)態(tài)調(diào)度模型預(yù)估算力的分配,更加智能通用的適應(yīng)各種預(yù)估應(yīng)用場景。通過多層次自適應(yīng)緩存機(jī)制,大幅減少了由超大規(guī)模稀疏模型參數(shù)引起的計(jì)算成本和數(shù)據(jù)訪問延遲,進(jìn)一步加速在線推理過程。此外,JiZhi還實(shí)現(xiàn)了智能資源管理機(jī)制,從系統(tǒng)運(yùn)行期歷史中學(xué)習(xí)最佳的資源分配計(jì)劃,調(diào)整負(fù)載控制策略,最大限度的提高JIZHI的系統(tǒng)吞吐。JIZHI已在百度20多個(gè)業(yè)務(wù)場景落地,從端到端的實(shí)現(xiàn)成本、服務(wù)延遲、系統(tǒng)吞吐量、資源消耗等角度展現(xiàn)出了JIZHI系統(tǒng)顯著的優(yōu)勢,在保障模型效果的前提下節(jié)省了大量的實(shí)現(xiàn)、硬件和基礎(chǔ)設(shè)施的應(yīng)用成本。
AI+房地產(chǎn)評(píng)估:從地理分布、人口流動(dòng)性分布、居民人口學(xué)分布等多個(gè)角度構(gòu)建豐富的特征集,以對(duì)房地產(chǎn)價(jià)值進(jìn)行全面綜合的剖析。
11. MugRep: 一種面向房地產(chǎn)評(píng)估的多任務(wù)層次圖表示學(xué)習(xí)框架
MugRep: A Multi-Task Hierarchical Graph Representation Learning Framework for Real Estate Appraisal
房地產(chǎn)評(píng)估是指對(duì)房地產(chǎn)的市場價(jià)值進(jìn)行公正評(píng)價(jià)的過程,其對(duì)房地產(chǎn)市場的各種參與者(如房地產(chǎn)經(jīng)紀(jì)人、估價(jià)師、貸款人和買家)的決策過程起著至關(guān)重要的作用。然而,要做到準(zhǔn)確的對(duì)房地產(chǎn)進(jìn)行評(píng)估并不容易,將主要面臨三個(gè)方面的挑戰(zhàn):(1) 房地產(chǎn)價(jià)值復(fù)雜的影響因素;(2) 房地產(chǎn)交易間的異步時(shí)空依賴;(3) 城市居民社區(qū)間的多元相關(guān)性。針對(duì)以上幾大挑戰(zhàn),本文提出了一種多任務(wù)層次圖表示學(xué)習(xí)框架 (MugRep),用來準(zhǔn)確的評(píng)估房地產(chǎn)。具體來說,通過獲取和整合多源城市數(shù)據(jù),本文首先從地理分布、人口流動(dòng)性分布、居民人口學(xué)分布等多個(gè)角度構(gòu)建豐富的特征集,以對(duì)房地產(chǎn)價(jià)值進(jìn)行全面綜合的剖析。然后,我們提出了一種演化的房地產(chǎn)交易事件圖卷積模塊,以融合房地產(chǎn)交易之間的異步時(shí)空依賴。此外,為了進(jìn)一步從居民社區(qū)的視角提取有價(jià)值的知識(shí),我們?cè)O(shè)計(jì)了一種分層異構(gòu)的社區(qū)圖卷積模塊,以捕獲居民社區(qū)之間的多元相關(guān)性。最后,我們引入以城區(qū)作為劃分的多任務(wù)學(xué)習(xí)模塊,以生成不同分布的房地產(chǎn)評(píng)估意見。我們?cè)趦蓚€(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果證明了MugRep及其組件和特性的有效性。
AI+人才管理:聚焦新領(lǐng)域的創(chuàng)新突破
一直以來,百度在“AI+人才管理”方面也實(shí)現(xiàn)了深厚的技術(shù)研究積累,今年年初就有相關(guān)研究成果登上國際頂級(jí)刊物Nature子刊Nature Communications。在KDD 2021的被錄取論文中,百度相關(guān)研究團(tuán)隊(duì)展現(xiàn)了在工作流動(dòng)行為預(yù)測、人才需求預(yù)測等方面的最新研究成果。
12. 基于異構(gòu)圖注意力表征的工作流動(dòng)行為預(yù)測
Attentive Heterogeneous Graph Embedding for Job Mobility Prediction
在當(dāng)今人才經(jīng)濟(jì)時(shí)代,跳槽頻繁現(xiàn)象已經(jīng)成為新常態(tài)。因此,對(duì)工作流動(dòng)預(yù)測的研究應(yīng)運(yùn)而生,它能使組織和個(gè)人在多個(gè)方面獲益。本文聚焦在工作流動(dòng)預(yù)測任務(wù),現(xiàn)有研究主要集中在對(duì)個(gè)體層面的職業(yè)軌跡建模,而很大程度上忽略在宏觀層面上職業(yè)流動(dòng)的影響(例如,在公司與公司或崗位與崗位之間的人才流動(dòng))。實(shí)際上,這種宏觀層面上的職業(yè)流動(dòng)信息能夠反映出人才市場的趨勢,對(duì)個(gè)人的跳槽決定會(huì)產(chǎn)生一定影響。為此,本文提出一種建模宏觀層面職業(yè)流動(dòng)行為影響來輔助預(yù)測個(gè)體層面的工作流動(dòng)框架(Ahead)。首先,從觀測到的職業(yè)軌跡鏈中構(gòu)造異質(zhì)企業(yè)-崗位網(wǎng)絡(luò)來保留宏觀層面的職業(yè)流動(dòng)信息。其次,本文構(gòu)建了AHGN模塊從異質(zhì)圖中獲取崗位和企業(yè)豐富的語義表征。其中提出了兩種聚合器,分別用來聚合內(nèi)部和外部鄰居的信息,以及一種新穎的類型注意機(jī)制被用來融合兩種聚合器的信息以更新節(jié)點(diǎn)表示。最后在公開互聯(lián)網(wǎng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果從多個(gè)角度證明了本文方法的有效性。
13. 基于注意力序列模型的人才需求預(yù)測
Talent Demand Forecasting with Attentive Neural Sequential Model
人才需求預(yù)測(Talent Demand Forecasting)技術(shù)是指根據(jù)公開互聯(lián)網(wǎng)數(shù)據(jù)對(duì)未來公司的人才招聘需求進(jìn)行預(yù)測的技術(shù)。在當(dāng)今瞬息萬變的商業(yè)環(huán)境中,根據(jù)公開數(shù)據(jù)及時(shí)預(yù)測各個(gè)企業(yè)在招聘市場中的人才需求趨勢,不僅可以幫助企業(yè)指定合適的人才斬落,保持自身人才競爭力,還可以幫助政府從宏觀角度對(duì)人力市場的供需關(guān)系進(jìn)行分析。雖然已有很多在招聘市場分析方面的工作,但由于細(xì)粒度人才需求時(shí)間序列的稀疏性和招聘市場復(fù)雜的時(shí)序模式,仍然沒有有效的方法可以預(yù)測細(xì)粒度的人才需求動(dòng)態(tài)。為此,在本文中,我們提出了一種數(shù)據(jù)驅(qū)動(dòng)的注意力序列模型,即人才需求注意力網(wǎng)絡(luò)(TDAN),用于預(yù)測公開市場中的細(xì)粒度人才需求。我們首提取多個(gè)粒度級(jí)別上人才需求的時(shí)間序列,并使用矩陣分解技術(shù)提取公司和職位的內(nèi)在屬性。然后,我們?cè)O(shè)計(jì)了一種混合注意力模塊來捕捉公司的趨勢和行業(yè)的趨勢,用以增強(qiáng)細(xì)粒度人才需求的信息。接著設(shè)計(jì)了一個(gè)相關(guān)性注意力時(shí)序模塊,用于對(duì)隨公司和職位變化的復(fù)雜的時(shí)間相關(guān)性進(jìn)行建模。最后,在大規(guī)模公開互聯(lián)網(wǎng)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果驗(yàn)證了所提方法在細(xì)粒度人才需求預(yù)測方面的有效性,展示了其對(duì)招聘趨勢建模的可解釋性。