日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

一、數據孤島

阿里巴巴作為一家包含多條業務線的公司,如電商、金融、廣告、文化、教育、娛樂、設備和社交等領域,數據區域包含國內、國外;數據場景包含線上的人貨場錢、線下的人貨場錢位置等數據,以及物流、用餐、咨詢、影視、出行、閱讀、音樂和健康等相關數據。

僅是與人相關的數據就包含業務賬號信息、PC cookie、無線IMEI與IDFA等設備標志、身份屬性等。

而隨著人們互聯網行為的多樣化,如果每天都有數千億條實體數據產生,而這些數據都分屬于不同業務單元,那么數據就很容易孤立。

解密OneEntity體系

 

以前總是不理解數據孤島這一部分,明明已經建立了onedata體系,做好了各業務線數據接入,ODS層數據全面接管,明明數據都匯總到了一塊,為何還說數據孤島呢?

直到真正開始做用戶畫像這一工作才發現,底層的指標體系往往是直接面向各個業務線內,缺乏一個業務線間的關聯,這是由業務局限性導致的。比如說,你是淘寶的運營人員,那你會關注釘釘的指標體系是怎樣的嗎?

答案是顯然不會。

那這樣就產生了數據的斷層,單是從底層的指標層,用戶在釘釘的行為習慣,淘寶的人員是無法獲知的。那如果我作為淘寶的人員,既想知道他在淘寶上購物行為,也想知道他在釘釘、支付寶、優酷等地方的行為習慣,又該從何得知呢?

二、數據只有融通才能真正產生價值

為打破數據孤島,創造更大的數據價值,阿里設計了OneEntity來提供全域數據與服務。OneEntity體系主要包含統一實體、全域標簽、全域關系、全域行為4大類。

解密OneEntity體系

 

1.OneEntity統一實體

將若干個實體歸攏到一起,并命名為OneEntity,可分為一般質量、高質量、高價值OneEntity。

2.GProfile全域標簽

基于歸攏后的數據對OneEntity進行貼標簽的操作。在OneEntity體系中,如何為OneEntity貼上標簽并找出高質量、高價值的OneEntity是最常見的問題。

這幾離不開標簽的萃取能力,那阿里是怎么萃取標簽的呢?

解密OneEntity體系

 

1)有效

一方面,主動去找人口學、社會學等學科的教授,學習與“人”相關的理論知識;

另一方面,調研了很多業界的標簽分類體系,取長補短。

最終,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會屬性。

-自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會因人為因素發生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。

-社會屬性:指人在實踐活動基礎上產生的一切社會關系的總和。人一旦進入社會就會產生社會屬性。例如經濟狀況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等。

人的向往與需求,可分為興趣偏好、行為消費偏好。

-興趣偏好:是人堆非物化對象的內在心理向往與外在行為表達,是一種法子內心的本能喜好,與物質無必然關系。例如渴望愛情、需要安全感、討厭臟亂環境等。

-行為消費偏好:是人對物化對象的需求與外在行為表達,涉及各行業,與物質世界存在千絲萬縷的聯系。例如母嬰行業偏好、美妝行業偏好、洗護行業偏好、家裝行業偏好等。

在以上四大類的基礎上,我們又嘗試根據不同的業務形態進一步細分二級、三級分類。

2)高速

標簽的萃取工作包含:數據采集;清洗,去噪聲并統一;反復試用并確定最佳算法及模型;為模型選擇計算因子并對模型中的每一個計算因子調配權重;產出標簽質量評估報告以輔助驗收。

我們隨機抽查了若干個在用的標簽,預估工作量和工作周期,一個有價值的標簽的萃取,平均耗時2周。

慢的主要原因,一是由于萃取流程復雜,每個標簽萃取都依賴底層的基礎數據,而較少依賴上一層匯總的數據中間層數據;二是大量重復的人力,對應的標簽萃取邏輯時可以復用的,包含算法的選擇、模型訓練和計算因子的加權等,但由于不同人來做,造成了很多重復工作。

標簽萃取過程復雜,那有什么可以參考的流程呢?

解密OneEntity體系

 

首先,數據源層面:建設一套完整的數據源,以OneEntity體系為核心,將OneEntity相關實體及其行為全部串聯起來,與存量的標簽一起作為數據源。

其次,標簽計算層面:將標簽萃取邏輯沉淀為2種,分別對應到偏好類標簽和分類預測類標簽的工具型產品的生產過程中,包含計算因子、權重等業務規則、數據樣本選擇、模型與算法選擇等。

最后,標簽監測層面:沉淀質量評估報告和生產監測、上線等管理流程。

當一整套工具型產品上線之后,批量生產十幾個同類型標簽只需要2天左右,這是因為在補足數據源、確定業務規則、選擇數據樣本、選擇算法與模型的過程中,減少了大量的代碼開發與模型訓練的工作。

在這個過程中,參與的角色也發生了變化,從原本的以數據產品經理、數倉工程師、數據科學家為主導,轉變為對業務更為熟悉的業務人員、數據分析師為主導。

3.GRelation全域關系

找到對象的關聯關系,當OneEntity代表人時,就可以找出他的親屬、朋友、校友和同事等;當OneEntity代表商品時,就可以找出他的上下游商品/貨等。

4.GBehavior全域行為

將與OneEntity相關的實習及行為關聯起來,形成一套用戶行為體系。

如:

-姓名、郵箱、地址等,這是現實世界中的唯一標志,就像OneEntity代表著你在大數據世界里的唯一標志。

-籍貫、年齡、政治面貌、宗教信仰等,這是現實世界中的標簽畫像

-父母、子女、夫妻等,天生或后天產生的一系列關系,代表著GRelation在大數據世界中的關系

-何年何月讀大學、何年何月第一次參加工作、何年何月獲得某項獎勵以及證明人是誰等

在大數據的世界里,將孤島數據實現融通并加以萃取,可以圍繞一個主題展開全面剖析。

作者: 草帽小子

分享到:
標簽:體系 OneEntity
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定