標簽作為當下最普遍的數據資產類型之一,對企業洞察用戶畫像、開展精細化運營等具有重要的支撐作用。企業標簽體系的建設并非一蹴而就的,需要結合業務視角進行整體的規劃,更涉及到復雜的數據治理和數據資產管理等工作。
本文對個推TechDay"治數訓練營"第四期進行了回顧,為大家分享企業級標簽體系的建設方法論、搭建流程及實踐經驗。
課程回顧
當前不少企業都已經或正在投入建設自身的標簽體系,但是由于數據未得到有效治理、缺少整體的標簽體系規劃、未能對標簽數據資產進行持續的運營管理等原因,一些企業在建設標簽體系的過程中仍然面臨標簽數據用不起來、數據經驗無法沉淀等難題。
針對以上情況,個推深度梳理自身標簽體系建設經驗,最終總結出企業級標簽體系建設的方法論,通過簡單五步即可完成高質量標簽體系的構建。
一、確定目標
首先,我們需要根據業務需求來確定標簽體系的建設目標。根據標簽的使用場景,標簽體系的建設目標可分為業務目標和系統目標兩種。
①業務目標,指的是最終給業務帶來實際收益的目標。比如通過標簽體系的建設和應用,使用戶的次日留存率提升20%。
②系統目標,指的是使用功能和系統性能等方面的目標要求。比如最終建設完成的標簽系統/平臺要能夠支持可視化創建和管理標簽;在性能方面,能夠在1小時內完成千萬級用戶的標簽計算和目標圈選。
二、標簽體系設計
確定了標簽體系建設目標后,接下來要開始標簽體系的頂層設計。這其中,有以下幾個核心問題需要關注:
1.如何確定標簽目錄?
我們建議企業充分結合業務需求和數據資產情況來確定標簽目錄,由"業務+數據"共同驅動標簽的生產。
業務驅動比較好理解,即根據業務訴求來確定要生產的標簽,比如企業為提升風險識別能力,需要創建"風險賬號"和"黑名單"等標簽;而為了提升付費轉化率,可以創建"商品偏好"和"價格敏感度"等標簽。
數據驅動是指基于數據資產情況提出標簽需求。一般而言,業務人員更聚焦業務,對于底層數據情況往往了解較少。這就需要數據開發工程師、數據分析師等深度介入,從數據資產中挖掘和提煉出有價值的標簽,比如根據場景偏好數據,提煉出常駐地、旅游地偏好等標簽;根據電商APP端內數據,提煉出消費水平、消費偏好等標簽。
值得注意的是,企業在實際設計標簽目錄和標簽體系的過程中,并不是僅僅依靠單純的業務驅動或單純的數據驅動就能實現,而是需要業務方和數據方不斷溝通磨合,將業務需求和數據資產情況進行匹配,最終完成一份標簽目錄的設計。
經驗總結
關于標簽目錄的確定,經常會遇到以下兩個常見誤區。 誤區一:標簽越多越好。其實業務方并不需要過多的標簽,一般來說20%的標簽就能滿足業務方80%的需求。 誤區二:標簽越高級越好。一些算法工程師或技術人員往往花費大量的時間優化模型,構建復雜的模型標簽。其實,把基礎標簽、規則標簽做好,基本就能滿足業務方的絕大多數需求。
因此企業在建設標簽體系的過程中需要考慮投入產出比,評估標簽的實際應用需求強度、衡量不同標簽對業務的提升效果。
2.當前數據基礎能否支撐標簽體系構建?
數據建設是標簽體系的基石,企業只有打好數據基礎,才能構建出一套高質量的標簽體系。因此在進行標簽體系的搭建之前,企業需要對數據進行綜合治理,提升數據的質量和可用性。
3.如何確定標簽規則?
根據生產方式的不同,標簽可以分為事實標簽、規則標簽、模型標簽等類型。
事實標簽的規則定義比較簡單,數據分析師在理解業務數據的前提下,從業務方的原始數據中提取即可。比如從用戶注冊信息中提取用戶來源渠道、性別或者年齡階段等標簽。
規則標簽擁有很強的業務屬性,需要業務人員和數據分析師一起去分析探索,基于原始數據進行標簽規則的創建和拼接。比如要創建一個"大學生"標簽,那就需要從各個維度對"大學生"進行特征定義,比如年齡方面一般在18-25歲之間,線上應用偏好方面安裝了一些大學生課程管理類App等等。
個推每日治數平臺DIOS實現智能特征洞察
結合自身標簽體系建設實踐以及服務行業客戶的經驗,個推發現,標簽規則定義是企業搭建標簽體系過程中所普遍面臨的痛點、難點。即使是專業的數據分析師團隊和業務專家也需要先花費大量的時間和精力去理解數據和用戶之間的關聯性,再從中提煉出標簽規則。
為了提升企業客戶的標簽生產效率,個推打造的數據智能操作系統--每日治數平臺DIOS,實現了目標智能特征洞察以及智能數據推薦,幫助客戶快速定位所需數據、自動提煉標簽規則,更加高效地進行標簽生產。
模型標簽往往是參考已有事實數據來預測群體的偏好、特征和分類,例如根據流失用戶群的特征來預測其他用戶群的流失概率。一般在事實標簽和規則標簽的覆蓋量級、飽和度、準確度等不足的情況下,我們就需要創建模型標簽,來滿足相關業務需求。
個推每日治數平臺DIOS實現零代碼搭建機器學習模型
傳統的模型標簽創建流程還是比較復雜的,涉及到算法開發、模型搭建、模型調優等復雜的工作。個推每日治數平臺DIOS將自身建模方法論"五步法"產品化,實現了零代碼建模能力,沒有編程經驗的業務人員也能在DIOS的可視化界面上拖拖拽拽,快速完成機器學習模型的搭建。
三、標簽開發
完成了整體的標簽體系設計,接下來就進入到標簽開發環節。一般而言,標簽開發的過程可以拆解為工程開發、工程測試、工程上線等三個階段。在工程開發階段,研發工程師根據標簽規則以及數據源情況進行工程的開發;然后由測試工程師結合業務訴求及工程結果對標簽質量進行測試驗收,確保標簽準確性后最終上線。
這其中涉及到一個非常重要的問題,即如何對新構建的標簽進行準確性校驗。
常見的校驗方式有三種: ①通過TGI進行邏輯自洽性校驗。比如新構建了一個男性標簽,通過TGI發現被打上男性標簽的人群中有很大一部分也被打上了女性的標簽,顯然這是一種很不合理的現象。(說明:"TGI"指的是洞察人群某特征占比與對照組人群該特征占比的比值,用于比較人群間的特征差異。)
②使用第三方平臺校驗。比如通過廣點通,使用第三方數據來進行準確性的校驗。 ③進行廣告投放。圈選不同標簽下的目標群體,進行A/B測試,根據投放結果校驗標簽的準確性。
完成了工程測試和標簽準確性校驗,就可以正式上線運行標簽體系。我們建議,企業可以先在實際業務場景中進行小范圍的多次檢驗,再大規模進行標簽體系的上線,避免后期出現大范圍的調整和改動。
四、標簽全生命周期管理
作為一種重要的數據資產,企業還需要在標簽體系上線以后,對標簽資產進行全生命周期的精細化管理。
此外,我們還建議企業建立標簽質量保障體系,設立責任人制度,確保標簽第一負責人能夠及時響應相關事項;梳理標簽開發、上線的流程和經驗,實現后續標簽的開發、測試、上線等流程規范化和標準化;更加體系化地進行標簽質量監控,比如通過定時工程監控標簽計算工程、量級、飽和度等信息。
五、應用與反饋
企業建立標簽體系的最終目的是服務業務。常見的標簽業務應用場景有幾種: ①開發數據類產品。比如智能推薦系統正是基于標簽大數據和算法實現。 ②用于目標群體的特征洞察和圈選。比如個推基于自身數千種標簽和億級別的特征數據,幫助品牌主、APP對細分人群進行畫像分析,并使用不同的標簽組合,智能圈選出符合目標特征的人群,為客戶做廣告投放、用戶觸達提供支撐。 ③精細化運營。完成對目標群體的畫像洞察后,就可以進行更加精細化的運營。比如品牌主可以針對不同興趣偏好的消費者群體制定差異化的廣告素材、選擇不同的媒體平臺,提升廣告投放效果。
針對在不同場景下的標簽應用結果,企業還需要做好后效的分析,科學評估標簽的質量、覆蓋度等,并把新產生的下游數據進行入庫處理,使整個標簽體系的全生命周期得到體系化的管控,真正實現數據資產的持續增值。
以上是對個推TechDay"治數訓練營"第四期直播內容的回顧,大家可以觀看直播回顧視頻進一步了解標簽體系建設的相關要點。
關注個推技術實踐微信公眾號,后臺回復"標簽",獲取本期直播課件~
2022年已經接近尾聲,個推TechDay"治數訓練營"系列直播課(第一季)到這里也正式收官啦!大家可以關注個推技術實踐視頻號,查看往期精彩課程。