国产精品久久久无码,亚洲の无码国产の无码步美,精品无码一区二区三区四区

知識圖譜旨在利用圖結(jié)構(gòu)建模、識別和推斷事物之間的復(fù)雜關(guān)聯(lián)關(guān)系和沉淀領(lǐng)域知識，是實現(xiàn)認(rèn)知智能的重要基石，已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問答、語言語義理解、大數(shù)據(jù)決策分析等眾多領(lǐng)域。本文將分享螞蟻集團(tuán)在知識圖譜上的工作。

一、圖譜概覽

首先介紹知識圖譜的一些基礎(chǔ)概念。

1、什么是知識圖譜

知識圖譜同時建模了數(shù)據(jù)之間的語義關(guān)系和結(jié)構(gòu)關(guān)系，結(jié)合深度學(xué)習(xí)技術(shù)可以把這兩者關(guān)系更好得融合和表征。

2、為什么要建知識圖譜

我們要建設(shè)知識圖譜主要是從如下兩點出發(fā)考慮：一方面是螞蟻本身的數(shù)據(jù)來源背景特點，另一方面是知識圖譜能帶來的好處。

[1] 數(shù)據(jù)來源本身是多元和異構(gòu)的，缺乏一套統(tǒng)一的知識理解體系。

[2] 知識圖譜能夠帶來多個好處，包括：

語義標(biāo)準(zhǔn)化：利用圖譜構(gòu)建技術(shù)提升實體、關(guān)系、概念等的標(biāo)準(zhǔn)化和歸一化水平。
領(lǐng)域知識沉淀：基于語義、圖結(jié)構(gòu)實現(xiàn)知識表示和互聯(lián)，從而積累豐富的領(lǐng)域知識。
知識復(fù)用：構(gòu)建高質(zhì)量的螞蟻知識圖譜，通過融合、鏈接等服務(wù)多下游，為業(yè)務(wù)降本提效。
知識推理發(fā)現(xiàn)：基于圖譜推理技術(shù)發(fā)現(xiàn)更多長尾知識，服務(wù)風(fēng)控、信貸、理賠、商家運營、營銷推薦等場景。

3、如何構(gòu)建知識圖譜的概覽

在構(gòu)建各類業(yè)務(wù)知識圖譜的過程中，我們沉淀出了一套螞蟻知識圖譜的通用構(gòu)建范式，主要分為如下五個部分：

從業(yè)務(wù)數(shù)據(jù)出發(fā)，作為圖譜冷啟動的重要數(shù)據(jù)來源。
他域的知識圖譜同現(xiàn)有圖譜進(jìn)行融合，通過實體對齊的技術(shù)來實現(xiàn)。
業(yè)務(wù)領(lǐng)域結(jié)構(gòu)化的知識庫同現(xiàn)有的知識圖譜的進(jìn)行融合，也是通過實體對齊的技術(shù)實現(xiàn)。
非結(jié)構(gòu)和半結(jié)構(gòu)化的數(shù)據(jù)，例如文本會對其進(jìn)行信息抽取，通過實體鏈指技術(shù)實現(xiàn)對現(xiàn)有圖譜進(jìn)行更新。
領(lǐng)域概念體系和專家規(guī)則的融入，將相關(guān)概念、規(guī)則與現(xiàn)有知識圖譜進(jìn)行鏈接。

有了通用的構(gòu)建范式后，就需要進(jìn)行體系化的建設(shè)。從兩個視角來看螞蟻知識圖譜的體系化建設(shè)。首先是從算法視角來看，有各種算法能力，比如知識推理、知識匹配等等。從落地視角來看，自下而上，最下面的基礎(chǔ)依賴包括圖計算引擎和認(rèn)知底座計算；其上是圖譜底座，包括NLP&多模平臺以及圖譜平臺；往上是各種圖譜構(gòu)建技術(shù)，基于此我們就可以構(gòu)建螞蟻知識圖譜；在知識圖譜的基礎(chǔ)上，我們可以做一些圖譜推理；再往上，我們提供一些通用的算法能力；最上面是業(yè)務(wù)應(yīng)用。

二、圖譜建設(shè)

接下來分享螞蟻集團(tuán)建設(shè)知識圖譜的一些核心能力，包括圖譜構(gòu)建、圖譜融合、圖譜認(rèn)知三個方面。

1、圖譜構(gòu)建

圖譜構(gòu)建的流程主要包括六步：

數(shù)據(jù)源，獲取多元數(shù)據(jù)。
知識建模，將海量數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)，從概念、實體和事件三個域來建模。
知識獲取，搭建了知識加工研發(fā)平臺。
知識存儲，包括Ha3存儲和圖存儲等。
知識運營，包括知識編輯、在線查詢、抽取等。
持續(xù)學(xué)習(xí)，讓模型自動地進(jìn)行迭代學(xué)習(xí)。

構(gòu)建過程中的三個經(jīng)驗與技巧

融合專家知識的實體分類

在構(gòu)建知識圖譜中，需要對輸入的實體進(jìn)行分類，在螞蟻場景下是一個大規(guī)模多標(biāo)簽分類的任務(wù)。為了融合專家知識來進(jìn)行實體分類，主要做如下三點優(yōu)化：

語義信息增強(qiáng)：引入label語義圖表示學(xué)習(xí)的Embedding。
對比學(xué)習(xí)：加入層次label監(jiān)督的對比。
邏輯規(guī)則約束：融入專家先驗知識。

領(lǐng)域詞表注入的實體識別

在實體識別的基礎(chǔ)上，從字詞連邊的圖結(jié)構(gòu)出發(fā)，讓模型學(xué)習(xí)到對連邊的合理賦權(quán)，對噪聲詞連邊減小權(quán)重。提出了邊界對比學(xué)習(xí)和語義對比學(xué)習(xí)兩個模塊：

邊界對比學(xué)習(xí)，用來解決邊界沖突問題。在詞表注入之后，構(gòu)建一個全連接圖，用GAT來學(xué)習(xí)每個token的表征，邊界分類正確的部分構(gòu)建一個正例的圖，錯誤的部分構(gòu)建負(fù)例的圖，通過對比讓模型學(xué)到每個token的邊界信息。
語義對比學(xué)習(xí)，用來解決語義沖突問題。借鑒了原型學(xué)習(xí)思想，把label的語義的表征加進(jìn)來，強(qiáng)化每個token與label語義之間的關(guān)聯(lián)關(guān)系。

邏輯規(guī)則約束的小樣本關(guān)系抽取

在領(lǐng)域問題上我們的標(biāo)注樣本很少，會面臨few-shot或zero-shot的場景，在這種情況下進(jìn)行關(guān)系抽取的核心思想就是引入外部知識庫，為了解決語義空間不同導(dǎo)致的性能下降問題，設(shè)計了基于邏輯規(guī)則的推理模塊；為了解決實體類型匹配導(dǎo)致的死記硬背問題，設(shè)計了細(xì)微差異感知模塊。

2、圖譜融合

圖譜融合是指不同業(yè)務(wù)領(lǐng)域下圖譜之間的信息融合。

圖譜融合的好處：

跨業(yè)務(wù)的知識復(fù)用：基于圖譜本體模型，實現(xiàn)跨業(yè)務(wù)的知識連接。
減少無效數(shù)據(jù)拷貝：連接即可應(yīng)用，標(biāo)準(zhǔn)化知識服務(wù)鏈路。
業(yè)務(wù)快速價值落地：減少業(yè)務(wù)找數(shù)據(jù)的成本，通過知識復(fù)用帶來更大業(yè)務(wù)價值，降本提效。

圖譜融合中的實體對齊

知識圖譜融合過程中一個核心技術(shù)點就是實體對齊，這里我們采用了SOTA算法BERT-INT，主要包括兩個模塊，一個是表示模塊，另一個是交互模塊。

算法的實現(xiàn)流程主要包括召回和排序：

召回：在表示模塊，利用標(biāo)題文本的 BERT向量相似度召回。

基于標(biāo)題+屬性+鄰居的排序模型：ü 利用表示模塊，完成對標(biāo)題、屬性和鄰居的向量表示：

計算標(biāo)題的cos相似度。
分別計算兩個實體的屬性和鄰居集合間的相似度矩陣，并提取一維相似度特征。
將三個特征拼接為特征向量計算Loss。

3、圖譜認(rèn)知

這一部分，主要介紹一下螞蟻內(nèi)部的知識表示學(xué)習(xí)框架。

螞蟻提出了一個基于Encoder-Decoder框架的知識表示學(xué)習(xí)。其中Encoder是一些圖神經(jīng)的學(xué)習(xí)方法，Decoder是一些知識表示的學(xué)習(xí)，比如鏈接預(yù)測。這套表示學(xué)習(xí)框架可以自監(jiān)督產(chǎn)出通用的實體/關(guān)系Embedding，有幾個好處：1）Embedding Size遠(yuǎn)小于原始特征空間，降低了存儲成本；2）低維向量更稠密，有效緩解數(shù)據(jù)稀疏問題；3）同一向量空間學(xué)習(xí)，對多源異質(zhì)數(shù)據(jù)的融合更自然；4）Embedding具有一定的普適性，方便下游業(yè)務(wù)使用。

三、圖譜應(yīng)用

接下來分享幾個在螞蟻集團(tuán)中知識圖譜的典型應(yīng)用案例。

1、圖譜的場景應(yīng)用模式

在介紹具體案例前，先來介紹一下螞蟻知識圖譜場景應(yīng)用的幾種模式，主要包括知識獲取、知識管理和推理，以及知識服務(wù)。如下圖所示。

2、一些典型的案例

案例1：基于知識圖譜的結(jié)構(gòu)化匹配召回

業(yè)務(wù)場景是支付寶主搜里面的小程序的內(nèi)容下掛，要解決的業(yè)務(wù)痛點是：

商品實體，以及商品上下位關(guān)系匱乏。
小程序商品級理解能力弱。

解決方案是，構(gòu)建了商家知識圖譜。結(jié)合商家圖譜的商品關(guān)系，實現(xiàn)對用戶query商品級別的結(jié)構(gòu)化理解。

案例2：用戶意圖實時預(yù)測在推薦系統(tǒng)應(yīng)用

這一案例是針對首頁推薦進(jìn)行用戶意圖實時預(yù)測，構(gòu)建了AlipayKG，框架如上圖所示。相關(guān)工作也發(fā)表在頂會www 2023上，可以參考論文做更進(jìn)一步的理解。

案例3：融合知識表征的營銷券推薦

這個場景是消費券推薦的一個場景，業(yè)務(wù)面臨的痛點為：

頭部效應(yīng)嚴(yán)重。
用戶核銷領(lǐng)取行為稀疏。
冷啟動用戶和券很多，缺少對應(yīng)的足跡數(shù)據(jù)。

為了解決上述問題，我們設(shè)計了融合動態(tài)圖表征的深度向量召回算法。因為我們發(fā)現(xiàn)用戶消費券的行為是有周期性的，靜態(tài)的單條邊是無法建模這種周期性行為的。為此我們首先構(gòu)建了動態(tài)圖，接著采用團(tuán)隊自研的動態(tài)圖算法來學(xué)習(xí)Embedding表征，得到表征之后再放到雙塔模型中去，進(jìn)行向量召回。

案例4：基于診療事件的智能理賠專家規(guī)則推理

最后一個案例是關(guān)于圖譜規(guī)則推理。以醫(yī)療保險健康圖譜為例，包括醫(yī)學(xué)知識、理賠規(guī)則、“人”的健康的信息，進(jìn)行實體鏈指，再加上邏輯規(guī)則，來作為決策的依據(jù)。通過圖譜實現(xiàn)了專家理賠效率的提升。

四、圖譜與大模型

最后簡單探討一下在當(dāng)前大模型快速發(fā)展的背景下知識圖譜的機(jī)遇。

1、知識圖譜與大模型的關(guān)系

知識圖譜與大模型各有優(yōu)缺點，大模型的主要有通用知識建模和普適性等優(yōu)點，而大模型的缺點正好是知識圖譜的優(yōu)點所能彌補(bǔ)的。圖譜的優(yōu)點包括準(zhǔn)確性很高、可解釋性強(qiáng)等。大模型和知識圖譜是能夠相互影響的。

圖譜和大模型的融合通常存在三種路線，一種是利用知識圖譜來增強(qiáng)大模型；第二種是利用大模型來增強(qiáng)知識圖譜；第三種是大模型和知識圖譜協(xié)同并進(jìn)，優(yōu)勢互補(bǔ)，大模型可以認(rèn)為是一種參數(shù)化的知識庫，知識圖譜可以認(rèn)為是一種顯示化的知識庫。