發展是平臺永恒的話題,以電商平臺為例,在基于用戶身份、歷史行為挖掘偏好,以實現精準搜索和推薦結果展示之外,為了激勵用戶在平臺進行更多采購,需要專門構建強化采購激勵、拓寬采購品類的場景。本文以知識圖譜為切入點,重點講解了阿里巴巴B2B在電商結構化信息挖掘和場景應用等方面的經驗。
知識圖譜并不是一個全新的概念,它經歷了知識工程、專家系統、語義網絡等多種形式。
01
知識工程與專家系統
在1977年第五屆國際人工智能會議上,美國斯坦福大學計算機科學家Edward A. Felgenbaum發表的文章The art of artificial intelligence. 1. Themes and case studies of knowledge engineering,系統性地闡述了“專家系統”的思想,并且提出了“知識工程”的概念。他認為:“知識工程利用了人工智能的原理和方法,為那些需要專家知識才能解決的應用難題提供求解的一般準則和工具。在1984年8月全國第五代計算機專家討論會上,史忠植教授提出:“知識工程是研究知識信息處理的學科,提供開發智能系統的技術,是人工智能、數據庫技術、數理邏輯、認知科學、心理學等學科交叉發展的結果。”
專家系統最成功的案例是DEC的專家配置系統XCON。1980年,XCON最初被用于DEC位于新罕布什爾州薩利姆的工廠,它擁有大約2500條規則。截至1986年,它一共處理了80 000條指令,準確率達到95%~98%。據估計,通過減少技師出錯時送給客戶的組件以加速組裝流程和增加客戶滿意度,它每年為DEC節省2500萬美元。
一個典型的專家系統如圖1所示,其特點主要包括:
- 在特定領域里要具有和人一樣或者超出人的高質量解決困難問題的能力;
- 擁有大量、全面的關于特定領域的專業知識;
- 采用啟發的方法來指導推理過程,從而縮小解決方案的搜索范圍;
- 能夠提供對自己的推理決策結果進行解釋的能力;
- 引入表示不同類型知識(如事實、概念和規則)的符號,專家系統在解決問題的時候用這些符號進行推理;
- 能夠提供咨詢建議、修改、更新、拓展能力,并能處理不確定和不相關的數據。
圖1 專家系統架構
可以看到,專家系統大量依靠領域專家人工構建的知識庫。在數據量激增、信息暴漲的當下,人工維護知識庫的方式在效率和覆蓋率上都難以達到令人滿意的水平。另外,推理規則的增加也增加了系統的復雜度,從而導致系統非常難以維護。
02
語義網絡與知識圖譜
1. 語義網絡
伴隨著Web技術的不斷發展,人類先后經歷了以網頁的鏈接為主要特征的Web 1.0時代到以數據的鏈接(Linked Data)為主要特征的Web 2.0時代,目前Web技術正逐步朝向Web之父Berners Lee在2001年提出的基于知識互聯的語義網絡(semantic Web),也就是Web 3.0時代邁進。
在Web 2.0時代,互聯網發展迅猛,數據的規模呈爆發式增長,基于統計的機器學習方法占據主流,并且在各個領域取得不錯的成果。例如搜索引擎,搜索的流程大致可拆分為基于用戶查詢、召回、L2R這3個過程,一定程度提升了用戶獲取信息的效率。但是這種服務模式仍然是把一系列信息拋給用戶,用戶最終還是需要對數據進行篩選、甄別,才能拿到自己最需要的信息。因此這種服務方式在效率、準確率上都有缺陷。
語義網絡的目標是構建一個人與機器都可理解的萬維網,使得網絡更加智能化,在解析用戶查詢意圖的基礎上,提供更加精準和快速的服務。傳統的語義網絡要做到這一點,就需要把所有在線文檔構成的數據都進行處理并存放在一起,形成一個巨大、可用的數據庫。
這么做需要強大的數據處理和Web內容智能分析能力:首先就需要對這些Web數據進行語義標注,但是由于Web數據具有體量巨大、異質異構、領域范圍大等特點,所以如何自動給Web上的網頁內容添加合適的標簽成為技術痛點之一。另外,面對已經標注過的Web數據,機器如何進行思考和推理也是亟待解決的問題。
由于上述問題的存在,在語義網絡提出后的10年間,其沒有得到大規模應用,但是在對其研究的過程中,積累沉淀了成熟的本體模型建模和形式化知識表達方法,例如RDF(Resource Description Framework)和萬維網本體語言(Web Ontology Language,OWL),這為后續知識圖譜的出現奠定了基礎。
2. 知識圖譜
① 知識圖譜概述
知識圖譜由google公司于2012年5月16日第一次正式提出并應用于Google搜索中的輔助知識庫。谷歌知識圖譜除了顯示其他網站的鏈接列表,還提供結構化及詳細的相關主題的信息。其目標是提高搜索引擎的能力,希望用戶能夠使用這項功能來解決他們遇到的查詢問題,從而提高搜索質量和用戶體驗。
知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其之間的關系。其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互連接,構成網狀的知識結構。隨著知識圖譜構建規模越來越大,復雜度越來越高,開始出現實體、類別、屬性、關系等多顆粒度、多層次的語義單元,這些關聯關系通過統一的知識模式(Schema)抽象層和知識實例(Instance)層共同作用構成更加復雜的知識系統。
從定義中可以看到,知識圖譜是一個語義知識庫,具備足夠的領域知識,其最重要的組成成分是三元組。三元組通常可以表示為G=<Eh,R,Et>,其中R表示知識圖譜中實體間所有關系的集合,例如關系“is_a”。一般情況下,關系都是帶方向且有明確語義的,反之則關系不能成立,例如“阿里巴巴is_a公司”。也有一些關系是雙向的,例如“張三is_friend_of李四”,反之亦然。對于這種雙向關系,通常情況會對調實體位置,拆分為2個三元組分別存儲。實體Eh、Et⊆E={e1,e2,...,e|E|}分別表示頭實體(Head Entity)、尾實體(Tail Entity),兩個實體共同用于表征關系的方向。
實體及其屬性可以用一種特殊的關系三元組表示,例如“has_a”。實體和屬性的界線比較模糊,一般從業務角度出發,在設計Schema的時候,如果認為某類屬性具有一類概念的共性,同時在后面的推理(例如路徑游走時新關系發現)中能夠發揮作用,就可以把它作為實體對待。還有一類屬性,比如年齡、身高,這類單純描述實體特征的最細粒度屬性,則一般被設計為屬性。
② 常見開放知識圖譜
wordNet是由普林斯頓大學認知科學實驗室于1985年構建的一個英文電子詞典和本體知識庫,采用人工標注的方法構建。WordNet主要定義了名詞、形容詞、動詞和副詞之間的語義關系,包括同義關系、反義關系、上下位關系、整體部分關系、蘊含關系、因果關系、近似關系等。比如,其中的名詞之間的上下位關系,“水果”是“蘋果”的上位詞。
Freebase是由創業公司MetaWeb于2005年啟動的一個以開放、共享、協同的方式構建的大規模鏈接數據庫語義網絡項目,2010年被谷歌收購并成為谷歌知識圖譜中的重要組成部分。Freebase主要數據源有Wikipedia、世界名人數據庫(NNDB)、開放音樂數據庫(Music-Brainz)以及社區用戶的貢獻。它主要通過三元組構造知識,并采用圖數據存儲,有5800多萬個實體和30多億個實體間關系三元組。2016年正式關閉,數據和API服務都遷移至Wikidata。
Yago是由德國馬普研究所研發的鏈接知識庫,主要集成了Wikipedia、WordNet和GeoNames這3個數據庫中的數據。Yago將WordNet的詞匯定義與Wikipedia的分類體系進行融合,從而使得Yago相對于DBpedia有更加豐富的實體分類體系,同時Yago還考慮了時間和空間知識,為知識條目增加了時間和空間維度屬性描述。目前Yago已經包含1.2億條三元組知識,是IBM Watson的后端知識庫之一。
OpenKG是一個面向中文領域的開放知識圖譜社區項目,主要目的是促進中文領域知識圖譜數據的開放與互聯。OpenKG上已經收錄了大量開放中文知識圖譜數據、工具及文獻。目前開放的知識圖譜數據包括百科類的zhishi.me(狗尾草科技、東南大學)、CN-DBpedia(復旦大學)、XLore(清華大學)等。
當然,還有一些垂直領域知識圖譜,這類知識圖譜不像上述通用領域知識圖譜那樣所涉內容廣而全。垂直領域知識圖譜主要面向特定領域的特定知識、應用場景進行構建,比如醫療領域的Linked Life Data、電商領域的阿里巴巴商品知識圖譜和場景導購知識圖譜。
03
知識圖譜構建
知識圖譜構建是一個系統工程,涵蓋多種信息處理技術,用于滿足圖譜構建過程中的各種需要。典型的圖譜構建流程主要包括:知識抽取、知識推理和知識存儲。
知識表示貫穿于整個知識圖譜構建和應用的過程,在不同階段知識表示具有不同的體現形式,例如在圖譜構建階段,知識表示主要用于描述知識圖譜結構,指導和展示知識抽取、知識推理過程;在應用階段,知識表示則主要考慮上層應用期望知識圖譜提供什么類型的語義信息,用以賦能上層應用的語義計算。
本節重點講述面向應用的知識圖譜表示。
1. 知識抽取
知識抽取是知識圖譜構建的第一步,是構建大規模知識圖譜的關鍵,其目的是在不同來源、不同結構的基礎數據中進行知識信息抽取。按照知識在圖譜中的組成成分,知識抽取任務可以進一步細分為實體抽取、屬性抽取和關系抽取。
知識抽取的數據源有可能是結構化的(如現有的各種結構化數據庫),也有可能是半結構化的(如各種百科數據的infobox)或非結構化的(如各種純文本數據)。針對不同類型的數據源,知識抽取所需要的技術不同,技術難點也不同。通常情況下,一個知識圖譜構建過程面對的數據源不會是單一類型數據源。
本節重點介紹針對非結構化文本數據進行信息抽取的技術。如上文所述,實體和屬性間的界線比較模糊,故可以用一套抽取技術實現,所以下文如果不做特殊說明,實體抽取泛指實體、屬性抽取。
① 實體抽取
實體抽取技術歷史比較久遠,具有成體系、成熟度高的特點。早期的實體抽取也稱為命名實體識別(Named Entity Recognition,NER),指的是從原始語料中自動識別出命名實體。命名實體指的是具有特定意義的實體名詞,如人名、機構名、地名等專有名詞。實體是知識圖譜中的最基本的元素,其性能將直接影響知識庫的質量。按照NER抽取技術特點,可以將實體抽取技術分為基于規則的方法、基于統計機器學習的方法和基于深度學習的方法。
- 基于規則的方法:
基于規則的方法首先需要人工構建大量的實體抽取規則,然后利用這些規則在文本中進行匹配。雖然這種方法對領域知識要求較高,設計起來會非常復雜,且實現規則的全覆蓋比較困難,移植性比較差,但是在啟動的時候可以通過這個方法可以快速得到一批標注語料。
- 基于統計機器學習的方法:
既然是機器學習的方法,就需要標注語料,高質量的標注語料是通過這類方法得到好的效果的重要保障。該方法的實現過程為:在高質量的標注語料的基礎上,通過人工設計的特征模板構造特征,然后通過序列標注模型,如隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MEM)和條件隨機場模型(Conditional Random Fields,CRF)進行訓練和識別。
模型特征的設計需要較強的領域知識,需要針對對應實體類型的特點進行設計。例如,在人名識別任務中,一個中文人名本身的顯著特點是一般由姓和一兩個漢字組成,并且人名的上下文也有一些規律,如“×××教授”“他叫×××”。在有了高質量的標注語料的基礎上,合適的特征設計是得到好的序列標注模型效果的又一重要保障。
對于序列標注模型,一般我們對需要識別的目標字符串片段(實體)通過SBIEO(Single、Begin、Inside、End、Other)或者SBIO(Single、Begin、Inside、Other)標注體系進行標注。命名實體標注由實體的起始字符(B)、中間字符(I)、結束字符(E)、單獨成實體的字符(S)、其他字符(O)等組成,如圖2所示。
圖2 命名實體標注
為了區分實體的類型,會在標注體系上帶上對應的類型標簽,例如ORG-B、ORG-I、ORG-E。
在實體抽取中,我們最常用的基于統計的序列標注學習模型是HMM、CRF。其中,HMM描述由隱藏的隱馬爾可夫隨機生成觀測序列的聯合分布的P(X,Y)過程,屬于生成模型(Generative Model),CRF則是描述一組輸入隨機變量條件下另一組構成馬爾可夫隨機場的數據變量的條件概率分布P(Y|X),屬于判別模型(Discrimination Model)。
以HMM為例,模型可形式化表示為λ= (A,B,π),設I是長度為T的狀態序列,O是對應長度的觀測序列,M為所有可能的觀測數(對應于詞典集合大小),N為所有狀態數(對應標注的類別數),A是狀態轉移矩陣:
其中:
aij表示在時刻t處于qi的條件下在時刻t+1轉移到qj的概率。
B是觀測概率矩陣:
其中:
π是初始狀態概率向量:
其中:
πi表示在時刻t=1處于狀態qi的概率。
HMM模型的參數學習即學習上面的A,B,π矩陣,有很多實現方法,比如EM和最大似然估計。一般在語料充足的情況下,為了簡化過程,采用最大似然估計,例如:
序列標注任務可以抽象為求解給定觀察序列O=(o1,o2,...,oT)和模型λ=(A,B,π),也就是計算在模型λ下使給定觀測序列條件概率P(I|O)最大的觀測序列I=(i1,i2,...,iT),即在給定觀測序列(即原始字符串文本)中求最有可能的對應的狀態序列(標注結構)。一般采用維特比算法,這是一種通過動態規劃方法求概率最大路徑的算法,一條路徑對應一個狀態序列。
定義在時刻t狀態為i的所有單個路徑(i1,i2,…,it)中概率最大值為:
可以得到變量δ的遞推公式:
定義在時刻t狀態為i的所有單個路徑(i1,i2,…,it-1,i)中概率最大的路徑的第t-1個節點為:
維特比算法在初始化δ1(i)=πibi(o1),Ψ1(i)=0,i=1,2,...,N之后,通過上述遞推公式,得到最優序列。
CRF算法與維特比算法類似,其得到在各個位置上的非規范化概率的最大值,同時記錄該路徑:
- 基于深度學習的方法
在上面介紹用統計機器學習的方法構造特征的時候,我們發現實體在原始文本中的上下文特征非常重要。構建上下文特征需要大量的領域知識,且要在特征工程上下不少功夫。隨著深度學習的方法在自然語言處理上的廣泛應用,構建上下文特征開始變得簡單了。深度學習的方法直接以詞/字向量作為輸入,一些模型(如RNN、Transformer等)本身就能很好地學習到上下文信息,并且不需要專門設計特征來捕捉各種語義信息,相比傳統的統計機器學習模型,性能都得到了顯著提高。這一類模型的通用結構基本都是一個深度神經網絡+CRF,如bi-LSTM-CRF、IDCNN-CRF、LSTM-CNN-CRF、Bert-biLSTM-CRF等,模型可以基于字或詞輸入(一般來說,基于字的模型性能更加優秀,它可以有效解決OOV問題)。這個DNN模型可以學習上下文語義特征、預測各個位置上輸出各個標簽的概率,然后再接入CRF層來學習各標簽之間的依賴關系,得到最終的標注結果。
② 關系抽取
關系抽取的目標是抽取兩個或者多個實體間的語義關系,從而使得知識圖譜真正成為一張圖。關系抽取的研究是以MUC(Message Understanding Conference)評測會議和后來取代MUC的ACE(Automatic Content Extraction)評測會議為主線進行的。ACE會議會提供測評數據,現在許多先進的算法已經被提出。
一般關系抽取的順序是,先識別實體,再抽取實體之間可能存在的關系。其實也可以把實體抽取、關系抽取聯合在一起同時完成。目前,關系抽取方法可以分為基于模板的關系抽取和基于監督學習的關系抽取兩種方法。
- 基于模板的關系抽取
基于模板的關系抽取,即由人工設計模板,再結合語言學知識和具體關系的語料特點,采用boot-strap思路到語料里匹配并進行抽取關系。這種方法適用于小規模、特定領域任務冷啟動時的關系抽取,這種場景下效果比較穩定。
- 基于監督學習的關系抽取
基于監督學習的關系抽取方法一般把關系抽取任務當作一系列的分類問題處理。即基于大規模的標注語料,針對實體所在的句子訓練有監督的分類模型。分類模型有很多,例如統計機器學習方法SVM及深度學習方法(如CNN)等。
傳統的機器學習方法重點在特征選擇上,除了實體本身的詞特征,還包括實體詞本身、實體類型、兩個實體間的詞以及實體距離等特征。很多研究都引入了依存句法特征,用以引入實體間的線性依賴關系。基于深度學習的關系抽取方法則不需要人工構建各種特征,輸入一般只要包括句子中的詞及其位置的向量表示特征。目前基于深度學習的關系抽取方法可以分為流水線方法(Pipeline)和聯合抽取方法(Jointly)。前者是將實體識別和關系抽取作為兩個前后依賴的分離過程;后者則把兩個方法相結合,在統一模型中同時完成,從而避免流水線方法中存在的錯誤累計問題。
在經典的深度學習關系抽取方法中,輸入層采用的就是詞、位置信息,將在Embedding層得到的向量作為模型的輸入,經過一個BI-LSTM層和Attention層,輸出得到各個關系的概率,如圖3所示。
圖3 經典深度學習關系抽取模型架構
③ 知識融合
通過知識抽取,我們得到大量實體(屬性)和關系,但是由于描述、寫法的不同,結果中存在大量冗余和錯誤信息,有必要對這些數據進行消歧、清洗和整合處理。作為知識融合的重點技術,實體鏈接(Entity Linking)的目的是將在文本中抽取得到的實體對象鏈接到知識庫中與之對應的唯一確定的實體對象,以實現實體消歧和共指消解。
實體消歧(Entity Disambiguation)專門用于解決同名實體的歧義問題,最簡單的方法是通過實體的屬性、周邊的詞構成特征向量,通過向量的余弦相似度評估兩個實體的相似度。基于這個思想,我們可以有更多的基于語義的方法來表征目標實體,從而評估兩個實體是否是同一個。
共指消解(Entity Resolution)是指解決多個不同寫法的實體指向同一個實體的問題。一般這類問題可以參考實體消歧方法解決,也可以具體問題具體分析,通過一些規則方法解決。
2. 知識推理
知識推理是基于現有的知識圖譜結構,進一步挖掘隱含的知識,用來補全現有知識圖譜屬性、關系,從而發現新的知識,拓展和豐富圖譜。例如可以通過推理發現新屬性,如由已知實體的出生年月屬性推理出年齡;也可以發現新關系,例如,已知(A,股東,B公司)、(C,股東,B公司)可以推理得出(A,合作伙伴,C)。知識推理的方法可以分為兩大類:基于邏輯的推理和基于圖的推理。
① 基于邏輯的推理
基于邏輯的推理主要包括一階謂詞邏輯(First Order Logic)推理、描述邏輯(Description Logic)推理。一階謂詞對應著知識庫里的實體對象和關系,通過謂詞之間的“與”和“或”的關系來表示知識變遷從而實現推理。例如通過“媽媽是女人”“女人是人”可以推理得到“媽媽是人”。描述邏輯則是在一階謂詞的基礎上,解決一階謂詞邏輯的表示能力有限的問題,通過TBox(Terminology Box)和ABox(Assertion Box),可以將知識圖譜中復雜的實體關系推理轉化為一致性的檢驗問題,從而簡化推理。
② 基于圖的推理
基于圖的推理方法,主要借助圖的結構特征,通過路徑游走的方法,如Path Ranking算法和神經網絡圖向量表示方法,進行基于圖的推理。Path Ranking算法的基本思想是從圖譜的一個節點出發,經過邊在圖上游走,如果能夠通過一個路徑到達目標節點,則推測源節點和目標節點存在關系。神經網絡圖向量表示方法則是對通過向量表示后的圖節點、關系進行相似度運算,推理節點之間是否存在關系。
3. 知識圖譜存儲
知識圖譜中的信息可以用RDF結構表示,它的主要組成成分是三元組,主要包括實體及其屬性、關系三類元素。在實際應用中,按照底層數據庫的存儲方式不同,可以分成基于表結構的存儲和基于圖結構的存儲。基于表結構的存儲可以理解為一般的關系型數據庫,常見的如MySQL、Oracle,基于圖存儲的數據庫常見的有Neo4j、OrientDB、GraphDB等。
① 基于表結構的存儲
基于表結構的知識圖譜存儲利用二維數據表對知識圖譜中的數據進行存儲,有3種常見的設計方案:基于三元組的存儲、基于類型表的存儲和基于關系型數據庫的存儲。
- 基于三元組的存儲
因為知識圖譜可以由三元組描述,所以我們可以把知識圖譜轉化成三元組的描述方式,將其放到一張數據表中。例如可以類似表1所示的形式。
表1 三元組存儲示例
這種存儲的優點很明顯,結構比較簡單,可以通過再加一些字段來增強對關系的信息的描述,例如區分是屬性還是關系。其缺點也很明顯:首先,這樣有很高的冗余,存儲開銷很大,其次,因修改、刪除和更新操作帶來的操作開銷也很大;最后,由于所有的知識都是以一行一個三元組的方式存儲的,因此所有的復雜查詢都要拆分為對三元組的查找才能得到答案。
- 基于類型表的存儲
針對上述方案存在的缺點,可以為每一種實體類型設計一張數據庫表,把所有同一類型的實體都放在同一張表中,用表的字段來表示實體的屬性/關系。這種方案可解決上面存儲簡單、冗余度高的問題,但是缺點也很明顯:首先,表字段必須事先確定,所以要求窮舉實體的屬性/關系,且無法新增(否則需要修改表結構);其次,因為屬性/關系都是存儲在特定列中的,所以無法支持對不確定類型的屬性和關系的查找;最后,因為數據按照類型放在對應表中,所以在查詢之前就需要事先知道實體的類型。
- 基于關系型數據庫存儲
關系型數據庫通過表的屬性來實現對現實世界的描述。我們可以在第二種方案的基礎上設計實體表(用于存儲實體屬性)、關系表(用于存儲實體間的關系),這一定程度上可以解決表結構固定、無法新增關系的問題,因為一般我們認為實體的屬性可以在Schema設計時事先枚舉完。例如表7-1,可以拆分為3張表(見表2、表3和表4)。
表2 組織機構表
表3 人物表
表4 關系表
4. 基于圖結構的存儲
知識圖譜本身就是圖結構的,實體可以看作圖的節點,關系可以看作圖的關系,基于圖的方式存儲知識,可以直接、準確地反映知識圖譜內部結構,有利于知識的查詢、游走。基于圖譜的結構進行存儲,可以借用圖論的相關算法進行知識推理。常見的圖數據庫有Neo4j、OrientDB、GraphDb、GDB(阿里云)等。
Neo4j是一個開源的圖數據庫,它將結構化的數據以圖的形式存儲,基于JAVA實現(現在也提供Python接口),是一個具備完全事務特性的高性能數據系統,具有成熟數據庫的所有特性。Neo4j分為商業版和社區版。其中社區版是開源的,是一個本地數據庫;商業版則實現了分布式功能,能夠將多臺機器構造成數據庫集群來提供服務。它采用的查詢語言是cypher,可以通過Neo4j實現知識圖譜節點、關系的創建(create命令)和查詢(match命令)。
Neo4j在linux上的安裝非常簡單,到官網上下載對應的安裝包,解壓后安裝到bin目錄,然后通過./neo4j start命令啟動。我們可以在:
http://localhost:7474/browser/
訪問可視化界面(見圖4),可以在這個Web頁面上通過cypher和圖數據庫進行交互。
圖4 Neo4j Web可視化界面
阿里巴巴內部也研發了圖數據庫用于存儲知識圖譜數據,如GDB、iGraph等,其中GDB(Graph Database,圖數據庫)是由阿里云自主研發的,是一種支持Property Graph圖模型、用于處理高度連接數據查詢與存儲的實時、可靠的在線數據庫。它支持Apache TinkerPop Gremlin查詢語言,可以快速構建基于高度連接的數據集的應用程序。GDB非常適合用于社交網絡、欺詐檢測、推薦引擎、實時圖譜、網絡/IT運營這類需要用到高度互連數據集的場景。目前GDB正處于公測期間,阿里巴巴內部很多知識圖譜業務都基于GDB存儲,它具備如下優勢:
- 標準圖查詢語言:支持屬性圖,高度兼容Gremlin圖查詢語言。
- 高度優化的自研引擎:高度優化的自研圖計算層和存儲層,通過云盤多副本方案保障數據超高可靠性,支持ACID事務。
- 服務高可用:支持高可用實例,單節點出故障后業務會迅速轉移到其他節點,從而保障了業務的連續性。
- 易運維:提供備份恢復、自動升級、監控告警、故障切換等豐富的運維功能,大幅降低運維成本。
04
知識表示
知識表示是指在不同的語義環境下有不同的含義,例如在圖譜構建階段,知識表示可以認為是基于RDF用三元組形式,如“<實體,屬性,值>”或者“<實體,關系,實體>”(也有描述為<主語,謂詞,賓語>)來表征知識圖譜的語義信息的。在知識圖譜接入上層應用場景后,尤其是隨著深度學習方法的廣泛采用,如何將知識圖譜和深度學習模型融合,借助知識圖譜引入領域知識來提升深度學習模型性能,引起了學術界和工業界的廣泛關注。
本節將重點介紹基于知識表示的學習方法,介紹如何將知識圖譜中的高度稀疏的實體、關系表示成一個低維、稠密向量。
1. 距離模型
結構表示(Structured Embedding,SE),將每個實體用d維的向量表示,所有實體被投影到同一個d維向量空間中,同時,為了區分關系的有向特征,為每個關系r定義了2個矩陣Mr,1,Mr,2∈Rd*d,用于三元組中頭實體和尾實體的投影操作,將頭實體、尾實體投影到關系r的空間中來計算兩個向量的距離,公式為:
用以反映2個實體在關系r下的語義相關度,距離越小,說明這2個實體存在這種關系的可能性越大。然而該模型有一個重要缺陷,它使用頭、尾兩個不同的矩陣進行投影,這個矩陣相互獨立沒有協同,往往無法精確刻畫兩個實體基于關系的語義聯系。為了解決這個問題,后續出現了單層神經網絡模型(Single Layer Model,SLM)、語義匹配能量模型(Semantic Matching Energy,SME)等方法,如RESCAL。RESACL模型是一個基于矩陣分解的模型,在該模型中,將整個知識圖譜編碼為一個三維張量X,如果三元組存在,則Xhrt=1,否則為0。張量分解的目標是要將每個三元組對應的張量分解為實體和關系,使得Xhrt盡量接近lhMrlt,函數可表示為:
2. 翻譯模型
自從Mikolov等人于2013年提出word2vec模型開始,表示學習Embedding在自然語言處理領域受到廣泛關注,該模型發現在詞向量空間中平移(加減)不變現象,即:
其中C(w)表示w通過word2vec得到的詞向量。受這類類比推理實驗啟發,Bordes等人提出了TransE模型,之后又出現多種衍生模型,如TransH、TransR等。TransE將知識庫中的關系看作實體間的平移向量,對于每個三元組,TransE希望:
即期望頭節點向量沿關系平移后,盡量和尾節點向量重合(見圖5)。
圖5 TransE 模型
模型的損失函數定義如下:
“||”表示取模運算,如L2距離。
在實際學習過程中,為了增強模型知識表示的區分能力,TransE采用了最大間隔,目標函數為:
其中,S是正確的三元組集合,S-是錯誤的三元組集合,γ為正確三元組得分和錯誤三元組得分之間的間隔距離,是一個超參數。S-的產生與負樣本的生成方式不同,不通過直接隨機采樣三元組,而是將S中每一個三元組的頭實體、關系、尾實體其中之一隨機替換成其他實體或關系來構造。
TransE模型簡單有效,后續很多知識表示學習方法都是以此為代表進行拓展的。例如TransH模型,為了解決TransE在處理1-N、N-1、N-N復雜關系時的局限性,提出讓一個實體在不同關系下擁有不同的表示。另外,雖然TransH模型使得每個實體在不同關系下擁有了不同的表示,但是它仍然假設實體和關系處于統一語義空間中,這和我們一般的認知有點不同,于是有學者提出了TransR模型。TransR模型首先通過一個投影矩陣Mr把實體投影到關系的語義空間,然后再進行關系類比推理(見圖6):
圖6 各種翻譯模型
05
電商知識圖譜應用
知識圖譜提供了一種更好的組織、管理和利用海量信息的方式,描述了現實世界中的概念、實體以及它們之間的關系。自從谷歌提出知識圖譜并應用在搜索引擎中,用以提升搜索引擎使用體驗,提高搜索引擎質量以后,知識圖譜在各種垂直領域場景中都扮演了重要的角色。
隨著消費升級,行業會場+爆款的導購模式已經無法滿足消費者心智,人們對貨品的需求逐漸轉化為對場景的需求。通過場景重新定義貨品的需求產生,場景運營平臺應運而生。場景運營平臺通過對商品知識的挖掘,將具有共同特征的商品通過算法模型聚合在一起,形成事實上的跨品類商品搭配。在算法端完成場景-商品知識圖譜的建設后,通過當前訴求挖掘消費者深層次訴求,推薦某個場景下互相搭配的商品,給予消費者對應場景下一站式的購物體驗,達到鼓勵消費者跨類目購買行為及提升客單價的目的。例如在阿里電商平臺,導購場景就有了很好的應用,并取得了不錯的效果。
1688團隊在阿里內部數據和算法基建的基礎上,基于B類商品特征,構建了自己的商品知識圖譜,以CPV的方式表征一個商品,具體商品表征如圖7所示。
圖7 商品CPV表征示意圖
任何知識圖譜應用的構建,整體上都要經歷如下幾個步驟:文本等非結構化或半結構化信息→結構化的知識圖譜→知識圖譜表征→特定應用場景。1688的商品知識圖譜,在阿里通用的電商NLP技術的基礎上,完成了半結構化信息向結構化的知識圖譜轉化的步驟,但是中間存在大量質量較差、語義模糊甚至錯誤的數據。為了優化這部分數據,阿里做了大量的工作,包括實體合并、消歧、長尾數據裁剪等。
針對初步加工過的數據,還需要大量的人工來標注清洗,以發揮數據的價值。而數據標注清洗這種累活一般是找專門的數據標注公司外包完成的。為了減少專門標注的成本,我們采用了“以戰養兵”的思路,讓運營直接使用這份經過初步加工的數據,通過收集運營的操作數據,快速反饋到算法模型中并不斷優化結果,形成運營-數據的相互反饋,如圖8所示,讓工具越用越順手,越用越好。
圖8 主題會場搭建流程示意圖
具體的主題錄入方式是:運營指定一個主題場景,比如婚慶主題,在指定主題下涵蓋商品的類目、屬性、屬性值。比如列舉一組配置,可以搭配后臺配置截圖。通過行業運營專家的經驗將主題和相應的商品圖譜關聯起來,我們可以明確哪些CPV數據存在業務關聯,以及運營認為哪些數據是有效的。除了主題數據的人工錄入,我們還配套了相關的自動化頁面搭建方案。
電商經常需要做促銷活動,活動會場頁面的制作需要投入大量人力,常見的活動頁面如圖9所示。
圖9 常見電商促銷活動頁面圖
這種活動類導購頁面的搭建,核心是站在買家的角度幫助他們發現和選擇商品,如圖10所示。其中,什么商品、如何挑選、怎樣呈現就是導購頁面包含的核心要素和業務流程。映射到技術領域,則會涉及建立頁面、數據分析、投放策略的三個方面。
圖10 活動類導購頁面搭建流程示意圖
1688在活動頁面制作方面沉淀多年,有眾多實用的技術和工具供運營使用,如頁面組件化搭建產品(積木盒子、奇美拉)、指標選品工具(選品庫)、商品排序投放產品(投放平臺)等。這些產品都有各自的細分業務域,運營通常需要跳轉到多個平臺進行配置,才能完成一張活動頁面的搭建,整體流程如圖11所示。
圖11 活動頁面搭建平臺示意圖
這就像是辦證件,A窗口讓你去B窗口登記,B窗口讓你去C窗口填表。我們都圍著一個個的“窗口”轉,這是一種以資源為中心的工作方式。以前讓用戶圍繞著資源轉,是為了最大化資源的使用效率,但是在今天這個人力成本高的時代,需要從資源視角轉向用戶視角,讓資源圍著用戶轉,這樣可以最大化價值流動效率。
我們通過幾個月的努力,將十余個系統打通,實現了數據源標準化方案、數據頁面綁定方案、頁面自動多端搭建方案、投放自動化方案等,形成了如圖12所示的產品體系。
圖12 會場搭建產品體系示意圖
通過將系統打通,使得運營搭建一個頁面的配置工作量減少了83.2%。而在剩余的16.8%的工作里,有87%是選品工作。借助主題會場,我們希望將運營選品的工作量也降低50%以上,并借助數據和算法,實現智能選品、智能搭建、智能投放。
作者:阿里CBU技術部
來源:《阿里巴巴B2B電商算法實戰》