圖片來源@視覺中國
文 | 晨山資本,作者 | 吳文超
近年來,人們頻頻「遭遇」各類大數據工具,體驗到許多前所未有的變化。不管是驚喜還是驚嚇,數據工具都在加速整個社會的數字化轉型,面對這樣的趨勢,加深我們對數據工具的認識和理解將越來越重要。
本文對大數據工具的變遷作了階段性總結,并對未來數據產品的新方向進行探討。通過當下可識別的坐標,銘刻十年前的歷史引爆點,呈現數據生態鏈的環環相扣,也看見大數據工具不只是一套封閉的技術體系,人與數據產品互緣同構,它的一頭接入算法的革新脈絡,另一頭與人的生產生活有機相連,持續回應更新的現實、觀念和技術,并不斷衍生出新的形態支撐各個行業的運轉。
不過,無論解題工具(數據工具)多好,解題思路(算法)多棒,最終我們還是要一遍遍回到最原始的價值拷問——我們解題是為了什么?我們還將探討工具大眾化、跨云互通、架構融合和數據安全等數據產品的新方向。
自1946年計算機發明以來,我們經歷了軟件、互聯網、移動互聯網到現在萬物可聯的時代。計算機也從最初的輔助「計算」功能,到現在成為我們承載信息的重要「伴侶」。個人的社交、購物、旅行等生活內容,企業的設計、生產、經營和管理都以數據的形式被記錄著。
這些變化,在近十余年,尤其是移動互聯網(PC時代計算機還只是觸達了少部分人)讓普通人的信息被計算機記錄開始,令大家感受尤其明顯。這背后同時也是一段數據工具的變遷史。
01 歷史引爆點與萌芽期
在互聯網出現之前,軟件還主要服務于企業,過程中誕生了如Oracle、SAP、IBM等為企業提供信息化的軟件公司。在漫長的時期中,軟件承載著數據記錄、計算和管理能力,數據庫也以Oracle、IBM等公司的產品服務于數據管理需求為主。
在后期,隨著企業經營決策復雜性的提升,利用數據分析進行決策的需求逐漸被提出,出現了Teradata等數據倉庫產品,Oracle、IBM等傳統數據庫企業也都紛紛推出自己的解決方案。這幾十年的時間里,大家更多講的是軟件而非數據。甚至到PC互聯網時期,真正接觸和使用計算機的人依然有限。
2010年左右,智能手機的出現,移動互聯網的爆發,實現「人聯」,才真正開啟了數據時代。也是在這前后,數據量的爆發式增長帶來了數據工具的爆發。
▲ 2010年左右是數據工具爆發的奇點
2010年左右數據工具大爆發,數據平臺架構百花齊放。
2010年之前傳統數倉還是以處理信息化系統中的結構化數據為主。2010年,為了應對移動互聯網中出現的大量用戶行為日志等非結構化數據,以Hadoop為代表的大數據平臺在此背景下誕生,揭開了大數據工具的序幕。并于隨后幾年出現了一大批圍繞著Hadoop生態的大數據產品。
Hadoop批量處理能力強,但實時性差,難以滿足應用系統對用戶提供更加實時服務的需求,此時Spark、Flink等流式處理平臺橫空出世。批流數據并行的Lambda、KAppa等架構逐漸成為主流。
隨著Hadoop的非實時性缺陷越來越讓人難以忍受、硬件成本的持續下降和云計算的滲透,MPP架構的數倉再次回到人們的視野,尤其是Snowflake以云數倉的方式刷新了大家對傳統數倉的認知,國內新的數倉解決方案也如雨后春筍般出現。
然而,數據平臺架構演進的步伐并沒有因此停止,數據湖、湖倉一體等架構在最近兩年又被大家提出和應用。
事實上,百花齊放的數據平臺架構背后是數據和應用復雜度的提升,優秀的產品永遠致力于把功能做到極致,突破自身產品能力的邊界;而優秀的用戶永遠在尋找適合自己的架構設計和產品組合,用戶和產品就這樣并行推動數據工具的發展。在這過程中也誕生了大量優秀的數據產品企業,如Splunk、Databricks、Snowflake、Clickhouse等。
▲ 數據平臺架構的變遷
數據工具是一個生態鏈。
以上更多是從橫向看整個數據架構的變遷,但縱向來看,任何一個數據架構都并不是孤立的,而是需要一整套數據處理的工具鏈才能完成數據處理的閉環,包括采集傳輸、查詢處理、數據轉換和分析、輸出等多個環節。雖然數據流的順序可能不完全一樣,但模塊基本一致。生態產品的誕生也和前面架構設計的多樣性、應用的多樣性息息相關。
我們看到另外一個比較主流的創業方向便是兼容于各種數據工具和應用系統的生態工具,如做數據采集的Fivetran、管道傳輸的Kafka和建模轉換引擎dbt。
▲ 數據處理的典型環節 資料來源:a16z.com
數據產品眾多,架構選型成為關鍵。
經過十余年的發展,受益于開源、國內外互聯網大企業的引領和創業公司不斷創新,數據工具也是層出不窮,每一個數據處理環節都有大量可選工具。
工具沒有絕對優劣,而用工具的人至關重要,如何搭建適合業務需求的工具組合才是用戶需要重點關心的問題。
▲ 數據處理的各個環節工具眾多
02 需求和算法驅動數據產品滾滾向前
現在我們擁有眾多大數據的工具,但工具背后本身誕生的背景是什么,為什么會有如此多的工具?
這最終還是要回歸到方法和價值上:我們處理的思路有什么革新?為什么要處理各種各樣的數據,以及處理這些數據能帶來多大的價值?
解題思路,算法驅動。
我們首先來看看人們處理數據的思路有多大的變化。「思路」在計算機領域換個詞就叫「算法」,而「算法工程師」這個崗位大體是伴隨著數據科學和人工智能誕生的。
在軟件時代,算法更多停留在傳統統計方法的應用:排序、求和、求統計值等,其最典型的應用在BI產品中,用于輕量級企業內部數據洞察。
在互聯網時代,信息量的爆炸給統計機器學習帶來新的機會,包括經典的邏輯回歸、SVM、KNN等分類、聚類算法在搜索、推薦引擎中被大量使用。
同樣是在2010年,Ale.NET在ImageNet中圖像識別的優異表現揭開了深度神經網絡的序幕,大量的神經網絡模型、算法被提出,不僅僅應用在圖像領域,同樣應用在語音、文本等非結構化數據中。而深度神經網絡對數據的依賴達到了前所未有的高峰,數據甚至成為了AI的第一生產要素,這又對數據處理工具提出了更高的要求。
近年來,AI逐漸走入大模型時代,擁有高算力、大數據量的互聯網企業訓練了超大規模參數的通用AI模型,尤其是在文本和內容生成領域。這再一次推動了數據使用的新模式,對大模型使用者的數據要求從大而全走向細而精。
▲ 算法發展史
無論你的解題工具(數據工具)多好,解題思路(算法)多棒,最終我們都要回答一個最原始的價值問題:我們解題是為了什么?有什么作用?
解題目的,價值驅動。
在軟件時代,數據聚合的目的更多是為了企業內部進行經營決策,所以BI是數據最早的出口形態。到了移動互聯網時代,各種數據被互聯網企業收集,進行用戶洞察分析,提升搜索引擎、電商甚至信息流圖文、視頻的推薦準確率,提高用戶點擊率,數據價值嶄露頭角。
隨著機器學習和神經網絡的發展,人們發現數據可以被利用的思路和方法被進一步打開,更多非結構化數據、半結構化數據和最原始的結構化數據被收集,開始用于廣泛的商業場景:
產品的研發迭代
互聯網企業是利用用戶數據迭代產品的最大受益者。數據輔助產品設計不僅僅可以在互聯網、軟件開發領域,在其他行業領域也可以被應用——服裝設計中通過收集用戶購買行為來進行款式設計,餐飲口味選品可以通過收集用戶點評數據來輔助決策。
數據助力營銷
其實最早的BI很重要的一個應用場景就是被用于營銷洞察,但彼時缺乏足夠的外部數據支撐。隨著近年來電商的崛起和線上購物滲透率的快速提升,企業對外部消費者的洞察也越來越精確,精準的數據營銷也成為數據應用的典型場景。
數據助力企業管理
傳統的企業管理更多關注流程管控,缺乏精細化的資源管理和決策依據。在數據時代,員工的表現、企業的生產、銷售都進一步被數據化,企業管理者擁有更多的維度洞察整個企業的人事和過程的管理。
數據助力人機協作
目前我們看到的數據應用大部分還是圍繞著「人」的數據。隨著「物聯」越來越普及,機器和設備的數據也被大幅收集,人們可以更加了解機器,人機協作也變得越來越高效和精準。
▲ 數據應用發展史
目前數據在很多行業還處于滲透期,大家更多關注營銷,但并沒有更深入地推進到產品研發、企業經營管理和人機協作領域。隨著數據在金融、電信、工業、政務、醫療教育甚至農業等行業應用,個人和企業將被深度數據化,行為和決策受數據驅動,執行過程被數據記錄,勞動成果被數據化衡量,甚至整個社會的運轉都是由數據在背后驅動,這將對數據工具提出新的需求。
03 數據產品發展方向:大眾化、跨云、架構融合和安全
數據產品的誕生從源頭來看是需求的驅動,從路徑上看需要IT基礎設施的助力,包括算法的迭代、硬件性能提升及成本下降,企業IT架構的調整。需求和技術的相互促進將帶來更多創新機會。
工具大眾化
人類生產工具的最終目的是提升生產效率。讓復雜的工作變得更簡單,讓機器去負擔最復雜的那部分運算邏輯,讓人關注工作中更具創造性的部分。
上面所列的絕大多數數據處理工具都有較高的技術門檻和使用門檻,但企業最終使用數據的是決策者、運營人員和業務人員。他們并不具備高超的IT技能,這就無形中增加了企業使用數據過程中的溝通成本。所以,未來數據工具大眾化也一定是大家追求的目標。國外不少產品用Excel的形態來方便業務人員使用數據,降低工具使用的門檻。雖然這種形態無法發揮大數據工具的所有能力,但在用戶體驗上還是更進了一步。
大眾化UI(交互界面)的形態并沒有局限,但如何保證易用性才是問題的關鍵。也只有產品更加大眾化,才能進一步掃清數據工具持續提升滲透率和用戶基數的障礙。
▲ Sigma產品用Excel Spreadsheet的形態方便用戶使用數據
產品跨云平臺能力
公有云廠商向來是底層技術實力比較強的企業,其數據類產品當然也并不落下風。Snowflake能在AWS生態繁榮發展的前提也是使用AWS的S3來存儲。而AWS在數據產品中從提取傳輸、存儲、數據處理到消費都有對應的云產品。
如果公有云客戶的第一選擇還是考慮云廠商第一方產品,那第三方產品是不是就完全沒有機會了呢?
▲ AWS全套數據產品鏈
即使放眼全球,多云和混合云架構也是企業的主流選擇。這就給大量獨立的數據工具提供了廣闊的生存空間。跨云數據產品也將成為未來企業需要考慮的重點。無論是公有云還是非公有云,數據產品能兼容于各類異構云/云原生基礎設施,將成為用戶采用的前提。
▲ 全球92%的企業都有多云戰略
產品架構融合能力
以往我們進行軟件架構設計的時候,硬件成本是重要的考量因素:如何節約內存?如何降低CPU消耗?如何平衡IO吞吐和讀寫性能?隨著摩爾定律的深入和后摩爾定律時代的到來,硬件復雜度提高,能力越來越強,硬件的單位成本也隨之下降。
▲ 4Gb和8Gb DRAM 價格過去5年呈下降趨勢 資料來源:macroMicro
這時候我們需要考慮如何把更多的事交給硬件去做,而軟件也在擴展自身功能的邊界。以近年來較受關注的概念HTAP(混合事務型和分析型數據庫)為例,傳統AP(分析型數據庫)更關注吞吐、TP(交易型數據庫)更關注實時讀寫,但隨著硬件IO能力的提升,大家開始探討為什么不能有一款數據庫可以同時兼容二者的能力呢?
▲ OLAP和OLTP數據庫正在融合
除了HTAP,在數據庫領域新興的其他趨勢如批流一體、湖倉一體、AI Native(算法/AI內生在數據庫產品中)等等,無不體現了硬件能力提升背后軟件功能的邊界越來越寬的趨勢。因此,數據產品應在設計之初就考慮未來產品的可擴展能力,如何逐步拓寬自己的功能邊界,以獲取更大的市場。
前面提到數據類產品未來將在各個行業深入滲透,但行業和行業之間對產品的要求千差萬別。到底是產品本身能力擴展能夠適應絕大多數行業,抑或未來出現行業版產品呢?這也是非常值得探討的話題。
數據安全
如果不解決安全問題,數據的價值發揮將受到極大的限制。
隨著數據價值的不斷提升,數據安全的價值也會越來越大。不久前,工信部等16部門聯合發布的《關于促進數據安全產業發展的指導意見》提出,到2025年,我國數據安全產業規模超過1500億元,年復合增長率超過30%。要知道,2022年整個網絡安全的市場規模也不超過1000億元,而這里面還包含了70多個產品品類。晨山資本在《數安法》頒布之前就已經布局了數據安全運營、API安全、隱私計算數據安全新興方向,也從這些企業的發展感受到市場對數據安全需求的快速提升,也就不難理解政策部門對2025年數據安全規模的樂觀預期了。
回頭來看,大數據工具的變遷歷史不過短短十余年,不過天下難事,必作于易,天下大事也必作于細,前路還有很多可能性。2023年,期待能看到更多充滿生命力的創新涌現,也希望更多數據方向的創業者來和我們一起交流探討!