今天談下對大數據下的用戶畫像和標簽體系構建的一些關鍵點思考,對于用戶畫像和標簽體系構建實際上網上已經有很多相關的歷史文章可以參考,今天文章這篇文章不會系統地去談整體的構建方法步驟,而是搞清楚里面的一些關鍵邏輯。
什么是用戶畫像?
簡單點來說用戶畫像是根據用戶的靜態基本屬性和動態行為數據來構建一個可標簽化的用戶模型。對于靜態屬性包括了類似個人基本信息(地域,年齡,性別,婚姻),家庭信息,工作信息等;而動態屬性則包括了學習,工作,生活,娛樂,社交活動等產生的各種動態行為,但是對于電商平臺來說一般主要聚焦在用戶的購買行為,點擊行為,瀏覽,評論,營銷活動參與行為,退換貨行為,支付行為等上面。
那么用戶的靜態和動態屬性信息和標簽有啥關系?
實際上對于用戶年齡,職業,地域,婚姻情況等都是用戶的標簽,但是這些標簽更多的是在陳述用戶的基本事實信息,因此也被稱為事實標簽。還有一類標簽,類似白領,潮流一族,高頻用戶,追求性價比等,這些標簽不是簡單對用戶靜態屬性,或單次動態屬性的描述,而往往是經過大量的用戶靜態和動態行為屬性經過抽象后形成的一直抽象標簽。
比如一個用戶經常購買團購或秒殺區的商品,那么我們可能會給用戶打一個價格敏感型的標簽。或者說用戶經常購買電子類的新品發售,那么我們可能要給用戶打要給數碼潮人的標簽。或者我們發現用戶最近開始購買類似某個品牌汽車的類似腳墊,汽車清潔用戶等商品,那么我們可以推斷給用戶打上有車一族的標簽。
為何要給用戶畫像并標簽化
簡單來說用戶畫像和標簽化還是為了針對性營銷的需要。任何一個商品,當進入到市場營銷推廣階段的時候一定有其明確的目標用戶群體,比如一個母嬰類商品,在推入市場后明確的市場定義和用戶群體細分為,面向:二胎家庭 + 高收入 + 價格不敏感 + 上班族
這個是商品本身的細分市場這個策略上面的每一個定位點實際上本身就是用戶畫像中的標簽。那么當我們對所有的用戶進行標簽化后,我們就很容易進行匹配。
上面列的標簽和用戶畫像庫中的匹配度越高,往往營銷的針對性也就越強,越是你需要最終關心的目標用戶。比如一個用戶的標簽庫模型和上面的四個點都匹配,那么在進行針對性推薦的時候購買行為達成的概率也就越高。
如果一個用戶二胎家庭 + 高收入 + 上班族這三個標簽都慢點,但是屬于價格敏感型用戶,那么我們完全就可以考慮在進行團購,秒殺的時候針對性推薦。
基于大數據分析的用戶畫像,實際要理解是可以從兩個不同的切入點進入的。
其一是基于單個用戶,如張三進行用戶畫像。
其二是針對某個商品,對其歷史購買群體進行用戶畫像
某個商品的歷史購買群體形成的用戶畫像,實際i上本身就是商品的目標用戶群體。那么拿著這個畫像區和第一種單個用戶的畫像庫中的標簽進行匹配分析。針對性營銷的關鍵可以理解為這種匹配度。
數據采集和模型構建
前面已經談到對于用戶數據的采集分為了靜態屬性數據和動態行為數據。
對于靜態屬性數據往往在用戶進行注冊的時候就完成了初步的采集,當前在用戶實名制注冊情況下可以采集到用戶身份證號,婚姻情況等更進一步的信息。當用戶的一些靜態屬性仍然可以通過個人的一些行為數據進行推測。比如用戶構建大學輔導書籍,郵寄到學校地址等,往往可以進一步推測用戶是一個大學生。
對于用戶的動態行為往往就比較多了,動態行為數據不是簡單的購買行為和購買訂單,更加重要的是用戶瀏覽行為,搜索行為,點贊,評論,轉發,添加購物車等各種行為數據。這些動態行為數據往往才能夠為分析推斷起到關鍵作用。
比如用戶最近一直在搜索嬰兒車,尿不濕,奶瓶等商品,即使沒有發生購買行為,你也可以推斷出用戶家里即將有剛出生的嬰兒這個核心標簽。
也就是說對于大部分運營平臺,上面就是一個最簡的數據采集模型,你可以采集用戶和商品的基礎屬性信息數據,同時采集用戶在App或網站上發生的購買,瀏覽,搜索等動態行為數據形成一個最基礎的原始數據庫。
當談大數據的時候,實際不僅僅是談數據的多樣性和大數據量,更加重要的是數據的關聯性。用戶和用戶的關聯性,即我們常說的用戶社交屬性信息;而商品本身也有商品的關聯性,商品A可以是商品B的一個子類,同時也和商品C同時屬于某一個商品類型等。
大數據分析的重點往往正是在于這種由人到物,由物到人形成的復雜關系網絡。
簡單來說就是當我們對用戶,商品兩者的關系進行擴展后,將形成一個完整的靜態關系+動態行為網絡結構。這個網絡結構有點類似于我們前面談到的知識圖譜和語義圖。
為何要作這種擴展?
簡單來說即使通過關系擴展后,將形成更多可以追溯,可以關聯,可以聚類的點。才有可能進行更多的數據建模并進行推理。
數據模型和數據聚類
常用的數據模型包括了自然語言處理和分析,回歸模型,聚類模型,文本挖掘和機器學習等。在模型構建前有個重點就是數據本身的檢驗(回答數據本身是否準確可靠),數據的相關性分析等。
要注意進行用戶畫像的時候,可能針對的是一個用戶群體,也可能針對的是一個具體的用戶群體。比如我們可以對月均消費金額>1000元,消費次數>2次的用戶群體進行畫像,得到這個群體的年齡分布,學歷分布,地域分布等;其次我們也可以對張三這個特定用戶進行畫像,給出他是小孩,動漫迷,音樂發燒友等標簽。
由個體到群體是進行聚類的基礎,即我們可以通過大量的個體行為數據,基于某些關鍵維度進行聚合,通過聚合得出以下大的歸類。比如對耳機類商品購買,通過聚類分析后可能得出發燒+品質型,嘗鮮型,價格敏感型等關鍵分類。
對于聚類完成后我們還需要進一步對聚類的抽象用戶進行畫像說明,比如對于發燒型抽象用戶群體特征:20歲以下,學生,喜歡日系品牌,2000價格區間等。
聚類最終的結果將可用于針對性營銷,類似當我們推出一個發燒耳機的時候我們就知道推送給哪些用戶,或者當我們有大的促銷優惠的時候應該推送哪些用戶等。
大數據下的用戶畫像
對于大數據下的用戶畫像實際上前面已經談到,核心就是對用戶進行標簽化或圖譜化處理。這個標簽可以是簡單的事實標簽,那么不需要建模,也不需要推理。
但是更多的是抽象標簽,需要進行模型建設和推理。
下面梳理下識別和分析維度的過程簡單來說對于電商大數據分析中的用戶畫像,其核心的展開邏輯應該是如此的,即是:用戶購買或希望購買某一個商品。
可以看到我們所有的用戶分析的維度展開均是基于上面這句話展開,可以看到兩個靜態的對象(用戶,商品)通過購買或潛在購買行為發生了關系和鏈接。那實際維度展開過程即:
a.用戶基本屬性先展開第一層
包括了性別,年齡,區域,婚否,工作還是學生,年收入,是否有小孩,是否有車,電話號碼等。(第一層展開里面會出現問題,即有些基礎數據我們沒法收集到,比如是否有車?那么我們可以從用戶購買行為來反向推測用戶是否有車)。
第一層展開后涉及到第二層的展開,比如區域,區域本身又是一個樹狀對象,可以作為展開和分析的維度。通過手機號我們可以分析出運營商,進入轉到運營商維度。
b.對于商品同樣,可以先做第一層的展開
商品本身有商品的類目,那么類目是一個重要的分析維度。即由商品類目構成的商品樹狀展開結構式商品的一個核心數據。即可以朝上進行類目聚合歸納,又可以向下進行演繹推理。其次,一個商品涉及到自營或其它的2B商家,那么就涉及到商家和品牌這些維度,這些維度同樣也是可以進行展開的點。最后,任何一個商品本身還存在其它的關聯類商品,商品關聯往往是基于某些關鍵業務活動場景進行的組合。
c.動態行為展開
動態行為包括了購買行為和潛在購買行為,對于瀏覽,點評,放入購物車等都可以納入潛在購買行為。實際上我們應該更加關注潛在購買行為,促使潛在購買轉變為最終購買。
一次購買就涉及到購買的時間,購買的地點,PC端還是移動端購買,購買的時候用的手機,購買的具體商品,購買的總金額,支付的方式,送貨的方式,是否基于促銷活動購買,是否使用打折券,退貨或換貨情況等。這些都應該納入對動態購買行為的分析中。
b.基于關系驅動的進一步分析
前面已經談到了靜態的關系數據和動態的行為數據往往形成一張復雜的網絡結構,這個網絡結構本身可以用于聚合分析,關系推理等。
比如當發現張三和李四購買訂單的配送地址都是同一個公司地址的時候,你可以初步推理張三和李四實際是屬于同事關系。
再比如當你發現張三的所有同事關系都已經被動態行為屬性和購買行為打上了某個標簽的時候,你就可以考慮張三本身是否也可能存在類似的標簽,雖然張三這個時候并沒有通過自身的行為聚合出這個標簽。
用戶全量行為數據的分散性
在當前的互聯網格局下,可以看到用戶實際的大數據行為數據體現出明顯的分散性。比如對于交通出行旅游等數據往往被類似攜程,去哪兒網等采集存儲;對于餐飲消費類似數據往往被大眾點評存儲;對于商品購買類往往體現在類似京東,天貓等電商平臺;而對于強關系數據體現在電信運營商和微信,對于弱關系數據體現在類似微博等新媒體應用,對于個人民生類數據往往則存儲在政府部門大數據中心。
而實際要對一個用戶進行完整的畫像或行為數據,需要的不僅僅是單一數據,更加重要的是完全包括用戶衣食住行各個行為特征的全量數據。如果誰能夠真正獲取到這種全量數據,往往才能夠構建最精確的用戶畫像,對于各個用戶來講也是將個人隱私完全暴露,這也和你光天化日大街上裸奔沒啥區別。
試想,當我打開攜程預定完出行機票或酒店的時候,進入到京東電商后一句再給你推薦你可能需要的出行裝備的時候,這才是能夠做到跨APP域的精確用戶畫像和推薦。
所以對于大數據用戶畫像和標簽構建已經不是一個簡單的技術問題,更加重要的是用戶行為和隱私數據的合法保護問題。