“大數據”仨字已經被喊爛了,“大數據分析”也經常被人提起。可到底咋完全是“大數據分析”?為啥大家喊得很多,平時工作中很少感受得到?今天系統講解一下。
01普通人理解的“大數據”
普通人理解的大數據可謂千奇百怪,比如:
1、一個Excel文件 200M,多大的數據呀!
2、我國人口14億,這個數據好大呀!
3、臥槽,我剛看了車,就有4S店推廣電話,肯定收集了我的大數據
……
這些千奇百怪的理解,都是來自對“數據”本身不夠了解導致的。想整明白“大數據”真正的含義,得從數據是從哪里來的講起。
02先理解“小數據”,再談“大數據”
最原始的數據采集方式就是:問卷。由專門的調查人員,借助一張張調查問卷,通過現場詢問、測量等方式獲得數據。這種方法已經沿用了400多年,經典的統計學、管理學理論都是建立在此之上的(如下圖)。
小數據有沒用?有用!非常有用!
能采集到某個地區的數據,代表著政府對這個地區有統治力。
能采集到越多的數據,中央就能掌握地方情況,從而加強管理。
數據是如此重要,以至于歷史上很長一段時間,統計任務歸屬于政府、軍隊、情報機關。我國的第一家調查公司還是在90年代初,在寶潔強烈要求下成立的。
但是,調研做法有三個明顯的問題:
1、非常耗費人力。訪問員、督導、審核、錄入、數據處理……都是人
2、非常耗費時間。設計問卷、填寫、回收、都是時間
3、準確度低。現場測量的數據會相對準,但口頭問回來的大部分都不準
這些問題,導致了問卷時代的數據采集,只能有抽樣式的,不能是全量采集。也因此衍生出了專門的抽樣理論和方法。但無論數據方法怎么改進,在業務上,抽樣,始終是一個難以逾越的梗阻。決策者總會覺得:
1、是不是樣本量太少
2、是不是代表性不夠
3、沒有覆蓋的樣本是不是真的一致
只要是抽樣數據,就一定會被質疑,就總是充滿懷疑。這也是最初“小數據”的說法來源,后續所有“大數據”其實都是圍繞“小數據”問題而來。
▌數據變大第一步:系統采集
數據從小變大的第一步,從系統采集開始。比如企業擴大規模,要在各地建連鎖店,第一步做得就是裝POS機,把交易數據采集進來,替代紙質訂貨單/出貨單。此時想了解銷售數據,是可以基于POS機收集的數據全量查看的(如下圖)。
從抽樣數據到全量數據,是一個質的變化。基于全量數據,可以直接管理到各個終端門店,直接基于數據作出經營決策。因此大部分企業的銷售分析、經營分析、業務分析體系,都是在此基礎之上建立起來的(如下圖)。
但是這個階段的局限也是很明顯的:POS機只能記錄交易結果,對過程一概不知。誰在買,買了多少,為啥買,通通不清楚。
這個階段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通過成交結果去猜。如果只有這個階段的數據,想做深入分析,還是得依靠調研。比如傳統企業想了解門店成交流程,會做門店調查,研究消費者在門店的動線,詢問消費者體驗。
▌數據變大第二步:主動采集
有了系統采集以后,大家自然地會想:除了交易數據,其他數據也能通過系統化采集。比如最簡單的形式:讓用戶自己交身份證,通過圖像識別錄入。這樣既能采集到用戶數據,又能避免手動填寫的錯誤。
但是問題來了:憑啥要交身份證給你呀!于是傳統采集,只有銀行、航空、通訊等有國家背景+法律規范要求的地方,才能相對準確的采集這些真實數據。
不過這些困難并沒有阻擋住企業采集信息的熱情。常見的手段,比如:勾引用戶辦會員卡,給生日禮遇讓用戶填寫生日。用戶完成信息給積分獎勵之類。更激進的,甚至有常識在門店裝人臉識別、裝眼動儀跟蹤設備來采集數據(當然,成本很高)。
為什么企業會孜孜不倦追求這些數據,因為這些數據真的有用。至少能把數據具體到一個人的身上,能識別出誰是高端用戶,誰是沉睡用戶,從而精細化運作(如下圖)
真正低成本的、解決采集消費者行為數據的問題,還得靠互聯網產品。
▌數據變大第三步:行為加入
互聯網產品的最大優勢,在于App/小程序/H5本身就是數字化產品。此時不但有條件記錄到用戶的點擊、登錄等行為數據,而且能將用戶ID、手機號等信息整合成統一ID,效率比依賴線下紙質單張申請的流程強無數倍。
還能將視頻、圖片、文章等內容打標簽,通過用戶點擊、轉發次數,瀏覽時長,反推用戶需求。對于經歷過傳統企業數據的人來說,互聯網產品的數據簡直就是鳥槍換炮。
相較之傳統的會員基礎信息、消費流水數據,用戶行為數據量特別、特別的大,大家想想自己在淘寶逛多久才買一件東西就知道了。可能之前幾百次點擊瀏覽,最后才有一單交易。
因此,需要專門的大數據架構來支持這些數據的存儲和計算。狹義上的大數據技術,特指對大量的用戶行為數據、非結構化數據的存儲和計算。
有了這些數據,才有現在我們流行的互聯網分析方法,比如漏斗分析法(如下圖)。
基于這些基礎數據采集,還能延伸出更多數據應用,比如:
1、模型類:行為預測、推薦算法
2、測試類:產品ABtest
3、畫像類:用戶畫像
雖然這些方法,基于交易數據也能做,但是數據量多寡,直接決定了結果準確度。從而影響到業務端使用。在傳統時代,只有銀行、運營商、航空公司獨享的分析方法,成為現在互聯網公司的標配。
然而即使這樣,既然有一些問題不能解決
● 用戶數據分散在若干平臺,導致單一平臺數據不足
● 用戶心理無法直接反應為數據,沖動型行為會干擾正常數據判斷
● 信息安全法規要求越發嚴格,對數據采集/使用限制在增多
因此,如何合法合規、持續利用大數據資源,依然是今天一個重要議題。
03上不了臺面的“變大”方法
當然,還有一些灰色/黑色的方法,讓數據變大
1、直接從“有數據”的人手上,買數據!
2、爬蟲、撞庫,硬撈用戶數據
3、通過設備,默默收集用戶數據
這就是各種騷擾電話、垃圾短信的源頭。當然,隨著國家對信息安全保護要求越來越嚴格,這些玩意生存空間也是逐步被壓縮,所以不談也罷。
04“大數據有啥用”的終極答案
縱觀數據從小到大的整個過程可以看出:數據從來都有用。即使最簡單、最不準的數據,也能反應管理上的問題。因此決策者們對于數據的追求,永遠是孜孜不倦的,永遠是不滿足的。(如下圖)
那么,為什么還有這么多人在問“大數據有啥用”呢?
因為并非所有人都理解“數據”的用途,別說大數據了,小數據丫也照樣不會用。
截止到2023年,依然有人是拍腦袋決策,拍胸脯保證;依然有人沉迷于“老夫從業十年,我說的就是對的”;依然有人覺得大數據包治百病,代碼一敲,鈔票從電腦屏幕里噴薄而出;依然有人迷信“底層邏輯”“核心思維”,苦練內功心法。
總之,想用好數據,就得深入業務流程,具體了解數據采集方式,這樣才能讀懂數據背后的業務含義,才能把自己面臨的具體問題轉化為數據問題,才能解出正確答案。
采集和計算數據,是一門科學
應用數據產生價值,是一種藝術
差別大致如此。