網易大數據生態數量級巨大,且產品線豐富,覆蓋用戶娛樂、電商、教育等領域,并且App活躍度高,積累了多維度的用戶行為數據。通過集團數據資產構建全域用戶畫像,旨在服務于域內眾多業務場景,同時也在探索外部商業化方案。今天借此機會,同大家分享下網易在大數據用戶畫像中的實戰應用經驗。
今天的介紹會圍繞下面三點展開:
- 網易生態數據介紹
- 用戶畫像中心分類
- 網易用戶畫像實戰案例
01
網易生態數據介紹
整個用戶畫像實踐經驗,都依賴于網易易數中臺,所以首先給大家介紹下網易生態數據情況。
1. 網易數據總覽

網易數據總覽特征如下:
- 數據量超億級,每日上億級賬號活躍,可觸達同人;
- 服務場景多,生態較為復雜,覆蓋多行業產品線,包括游戲、教育、電商、泛娛樂等;
- 優質用戶平均標簽覆蓋率達70%以上;
- 提供包括但不限于參與人、流量域、位置域、關系域等主題域解決方案,即能夠封裝用戶畫像在主題域的通用化模塊。
2. 網易產品線豐富

網易產品線豐富,覆蓋從用戶娛樂、電商購物、教育、新聞資訊等各個維度用戶行為數據,APP活躍度高,涵蓋用戶群廣。項目組整體目標是通過集團數據資產構建全域資產用戶畫像,已應用于網易生態圈內眾多業務場景,同時探索產品化及方法論,服務于生態圈外部合作機構,進行商業化操作。
3. 全鏈路數據中臺產品矩陣

全鏈路數據中臺產品矩陣,包括底層日志等數據源層,數據平臺加工層,整體標簽的離線或實時加工、挖掘算法及監控,以及上層業務應用,如智能分析、增長運營、推薦搜索等一系列業務層應用,組成了網易數據中臺產品矩陣。網易易數產品矩陣,為網易用戶畫像起著極為關鍵的支撐作用,尤其是數據標準體系、數據治理平臺等模塊,很好的承載著用戶畫像落地和質量保障。
02
用戶畫像中心分類
首先介紹下杭研用戶畫像整體數據架構及落地情況,主要分為三部分:其一為基礎的用戶畫像,基礎標簽 ( 如性別、年齡 )、行為統計 ( 如活躍 )、興趣偏好及預測等標簽;其二為關系庫部分,即IDMapping;其三為主題域部分,即對地域、社交、搜索關鍵詞等相關方面的工作。
1. 網易數據架構

網易整體數據架構底層與各個業務方進行數據交換合作,共同建立公共數據中心,以數倉為藍本進行架構。
中間層為用戶畫像中心:
- 用戶標簽的分類包括基礎標簽、行為標簽、偏好標簽以及預測標簽等,不同公司分類方法略有不同,如根據更新周期,分為靜態標簽 ( 性別等 ) 和動態標簽 ( 年齡等 );偏好標簽包括用戶的長中短期偏好等,預測標簽主要應用于廣告投放部分,例如游戲達人,高價值用戶群等。
- 關系庫主要是IDMapping,目前已經有較多的方案論和解決方案,例如多賬號的歸一用于后續的業務數據挖掘工作,提升對用戶的識別能力。典型場景為兩個手機號對應只有其中一個有過注冊行為信息,另一個沒有注冊行為信息,但對于上層而言,應該打通他們作為同一個行為主體。關系庫主要包括同機網絡 ( 同一設備多個ID的關系 )、同人網絡 ( 同一個人多個設備信息 ) 以及社交關系 ( 人與人之間的關系 ) 等。
- 主題域主要包括地域數據、廣告數據、關鍵詞和知識庫方向,其中知識庫和圖譜數據,主要應用于網易域內外內容知識打通。
頂層的應用場景包括增長運營、推薦搜索、廣告變現、營銷系統、用戶反欺詐及內容運營等方面,對業務方提供全方位的服務,不局限于單一應用場景。還有數據規范和數據管理部分,作為數據標準化,沉淀經驗方法論。
2. 網易用戶畫像構建流程

用戶畫像整體構建流程依托于網易易數中臺,搭建起完整的業務數倉體系,融合多方業務數據源。經過多年的探索實踐,已經形成完整的用戶畫像體系,從數據層面到產品層面,逐漸打磨,提供標簽管理、監控、報表、算法、開發及權限管理,融合在各業務產品體系。諸如關系圖譜形成API的接口服務輸出各業務方;數據服務包括人群圈選、人群分析等運用于市場及運營團隊;特征庫方面描述了用戶向量化的特征相比標簽粒度更為細膩,適用于算法團隊迭代開發。在此基礎上沉淀了多種數據應用,包括增長運營、廣告DMP、智能風控等方面。
3. 網易用戶標簽

目前整體總標簽數達1000+,其中不包含單一業務行為數據。標簽分類如下:
- 基礎標簽,即對用戶的自然屬性描述,例如性別、年齡、教育背景、生活習慣 ( 早起晚起 )、地理位置 ( POI信息 )、職業狀況 ( 所屬行業 )、經濟情況 ( 有車有房 )、設備信息 ( 手機、運營商等 )、會員信息 ( 各業務方會員等級 )、衍生信息。其中衍生標簽,如評估是否已婚,在原有的標簽體系下沒有此類標簽,但可以通過對多個標簽進行組合生成新的標簽,包括是否有小孩、30歲滿足某個條件等。
- 行為標簽包括地域、廣告、搜索、全域、播放、點擊、評論、關注、收藏、購買等維度。
- 偏好標簽包括出行購物、手機數碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、游戲競技、動漫影視、明星藝人等維度。
- 預測標簽包括利用算法等進行預測生成的標簽,包括是否出行,是否買車等等。
另外,標簽的枚舉值也相當重要,業務分析過程中很容易出現枚舉值的偏差,不符合實際業務邏輯。除此之外還包括標簽間的沖突,例如年齡15歲,學歷卻是博士或者有小孩,策略類標簽是標簽領域較為有挑戰性的地方。

用戶標簽案例:性別。主要包括三種方案,其一為標簽傳播,根據用戶在各個業務場景,例如母嬰商品點擊行為標簽等進行item標記,構建User-Item的興趣網絡進行Graph Embedding,最后進行分類預測用戶的性別;其二為利用NLP算法對用戶的昵稱進行語義分析;其三為利用業務屬性自行填寫的內容進行判斷,此處需要對數據質量進行過濾,排除諸如出生為1990-01-01的參數異常值信息。基于上述的三類算法特征結果集進行模型的融合,然后對用戶的性別進行預測,同時判斷該用戶性別的準確率,大部分準確率在0.6+以上可以應用于實際業務場景中。當然除了常見的算法融合,還包括數據融合、特征融合等等。其中需要突破的地方包括特征的稀疏性,因為IDMapping打通后的數據覆蓋率僅20%左右,這個嚴重影響了模型的整體效果。
4. IDMapping

IDMapping主要指用戶設備的打通,用于識別用戶的唯一性,現今采用的手段有兩種,其一通過工程層面打通,如SDK埋點,優點是準確率較高,缺點是還會存在一人多機等現象,導致了不能夠較好地完整描述一個用戶畫像;其二指數據層面打通,通過ID關系網,采用規則和算法結合的方法,進行同人識別,優點是很好解決一人多機現象,缺點是準確率難以評估。本次分享,主要指數據層面打通。

IDMapping整體的思路及方案,具體要結合各種賬戶、設備之間的關系對,以及設備使用規律等用戶數據,利用規則過濾+數據挖掘算法 ( 連通圖劃分及社區發現 ) 判斷賬號是否屬于同人。在IDMapping過程中,常遇到的問題及對應解決方案如下:
- 用戶有多個設備信息,定義相應的閾值進行關聯。當然,社區發現當前應用于營銷場景,暫沒有用于風控或用戶運營等場景,因為會把一些異常的賬號關聯在一起,且會存在僅登錄使用過一次的設備信息。
- 設備過期 ( 一般在2年半左右時間 ),設定衰減系數,對單用戶多設備加大衰減力度。
- 當然也會存在一些異常數據信息,通過算法識別出包括但不限于以下場景,諸如借用朋友設備、設備臟數據、刷號等行為軌跡。

IDMapping的存儲方式包括兩個ID類型 ( 關系對 )、最近采集時間、最早采集時間、采集源數據、采集源列表、采集的頻次和周期。其中共線關系的部分增加了時間衰減系數,同步遞減應用于結果,同時也增加了某些參數的權重部分用于提高業務的可選性和高可性。
5. 地域主題域

地域主題域可以挖掘用戶的需求信息,包括是否有車,是否經常去4S店,通過WIFI、設備等信息獲取親戚、同事等關系,通過IP可以捕獲學校的學生信息,根據作息規律進行統計。當然除此之外,地域主題域還用于反欺詐領域,針對黃牛等用戶群進行修改地域參數信息,規避系統檢測。
6. 用戶畫像管理與存儲

用戶畫像管理與存儲在網易大數據經歷了多次迭代,包括前期字符串的拼接、手工標簽命名、明文關聯維表,再到現在利用JsonArray格式進行標簽類型管理,這種有個比較大的缺點,就是存在冗余嚴重,正在嘗試新的方案設計。
7. 質量校驗與保障體系

網易標簽包含真實的用戶數據及特征用戶數據,利用無監督的算法模型預測姓名、年齡、有車、有房等,利用有監督進行提升數據質量,提升標簽的整體效果。主要包括三方面的工作:
- 利用實名認證數據,作為高可信的樣本集;
- 利用強特征用戶數據,通過GPSIP等用戶行為數據;
- 利用外部數據,增加高置信用戶數據質量。
除此之外,還包括利用一些常見的算法,例如交叉驗證準確率和召回率,線上ABTest、算法離線驗證、運營活動驗證、真實數據驗證等等方案。

質量保障標簽管理方法論,包括以下四點:
- 每個標簽定義第一責任人,用于快速響應業務需求,同時處理標簽異常問題;
- 流程優化,標簽的流程較為漫長,需要了解業務、算法、開發的全流程,利用端到端的模式,通過快速響應增加標簽規范化的評審工作;
- 測試監控方面,測試在標簽上線前對標簽規范和質量輸出測試報告,預測則是針對規范、枚舉值等范圍,建立監控預警機制;
- 管理平臺化,則是標簽生產、加工、處理、應用全流程體系化、標簽化、工具產品化,不斷迭代升級。
03
網易用戶畫像實戰案例
最后和大家介紹下網易用戶畫像實戰案例。
1. 應用場景豐富

網易用戶的多元化數據,能夠精準定位用戶,覆蓋范圍廣,包括但不限于以下業務目標場景:
- 市場營銷:為人群圈選、人群洞察等提升營銷價值;
- 推薦搜索:為網易算法團隊提供數據輸入;
- 增長運營:為用戶研究、數據運營等提供數據支撐;
- 廣告投放:為廣告主提供人群定向投放功能;
- 智能風控:為營銷反欺詐,諸如薅羊毛、資金風險、異常用戶識別提供特征算法服務。
這里重點講解下營銷反欺詐薅羊毛案例,此類用戶資源池有限,通過頻繁地切換IP、WIFI等設備信息,規避風險。利用用戶畫像及其特征,切入智能風控,能夠提升6%的風險用戶識別率,同時結合知識圖譜、IP黑名單、異常設備等方面的數據信息,能夠較好地擴大數據價值。
2. 用戶畫像案例

通過覆蓋用戶出行、娛樂、設備、購買、地址等維度數據,基于基礎標簽、事實標簽以及預測標簽等標簽,應用于上述提及的多個業務場景中。通過用戶畫像,可以知道用戶偏好,購買相關等偏好信息。
3. 實時全鏈路推薦案例

網易用戶數據服務實時方案,打通各個業務場景的數據孤島信息,實時融合用戶的數據資產,深度洞察分析用戶屬性信息,支撐各個業務間數據打通和服務,實現了"采集+計算+調用"的實時全鏈路體系。例如,在冷啟動新客階段,利用用戶畫像能力,將離線特征放進HBase中進行實時計算,在多業務場景進行交叉,全鏈路支撐各業務數據打通和服務,為業務方提供二次服務。另外,利用實時用戶畫像結合知識圖譜捕獲用戶行為軌跡,避免用戶流失后造成的無購買、點擊等行為,進行二次觸達,增加業務轉化效率。
4. 總結

網易數據用戶畫像中臺顯著提高了數據生產力,逐步沉淀方法論和產品,賦能域內眾多業務場景,探索外部商業化解決方案。
作者:張長江 網易 大數據技術專家