作者 | 阿里云計算平臺事業(yè)部

如今，大數據技術已進入“后紅海”時代，成了“水電煤”一樣可以普惠人人的技術。同時，新領域仍在不斷演進迭代。

本文的上篇 “Snowflake如日中天是否代表Hadoop已死？大數據體系到底是什么？”，闡述了后紅海時代下大數據體系的演進熱點是什么，以及大數據體系3個子領域的技術解讀，包括多層智能化演進的分布式存儲系統(tǒng)、統(tǒng)一框架和算法多元化發(fā)展的分布式調度系統(tǒng)，和統(tǒng)一化發(fā)展的元數據服務。

本文作為下篇，繼續(xù)對計算引擎、框架與接入、數據開發(fā)與治理、智能化、安全與隱私保護、運維6個子領域做技術解讀，概述各領域的演進歷史、背后驅動力、以及發(fā)展方向，并希望和大家一起探討大數據體系未來演進的技術趨勢，以及仍待探索的未解問題。

大數據體系的領域架構

在Shared-Everything架構角度下，大數據體系子領域劃分成9個領域：

注：這張圖上的前3個子領域：分布式存儲、分布式調度、元數據服務已在上篇完成，本文直接從第4個子領域開始分享。

4. 多種計算引擎并存

計算層是整個大數據計算生態(tài)的核心，是數據到價值轉換的關鍵。大數據場景中有各類計算形態(tài)，如批、流、交互式、多模、圖、搜索、等多種計算模式。

大數據領域發(fā)展了20年，在“后紅海”時代，主流計算模式已經基本固定，形成批處理、流處理、交互式、機器學習四個核心方向，以及一些小眾/專門場景的計算模式。在開源社區(qū)領域，經過百舸爭流式的競爭和沉淀，也基本形成了主流的社區(qū)形態(tài)。

除了機器學習，前三個方向有一定的overlApping，例如Spark同時支持流、批和部分交互能力。但最終形成廣泛影響力的引擎，都是在某一方向建立顯著的競爭門檻。

整體看，計算引擎的發(fā)展將會在存儲計算分離架構基礎上，以一套數據支持多種計算模式：

（1）存儲計算分離，以及隨后的1+N架構（即一套數據之上支持多種計算模式）

（2）批處理——是大數據處理的基礎形態(tài)，以Bulk Synchronous Parallelism（BSP）為基礎原理，從Map-Reduce（MR）模式開始發(fā)展起來，所謂“批”指的就是Bulk（也譯作Batch）。Map-Reduce的運算框架逐步發(fā)展成Direct Acyclic Graph（DAG），上層語言也開始從MR的JAVA代碼向SQL轉型，第一版本集大成的批處理開源系統(tǒng)是Hive+Tez。因為Hive2.0是嚴格BSP模式，每次數據交互均需要落盤，犧牲了延遲和性能。Spark抓住內存增長的趨勢，推出基于ResilientDistributed Dataset(RDD)的運算框架，展開與Hive的競爭。當前在開源領域，Hive/Spark是主流引擎，隨Spark穩(wěn)定性和內存控制逐步完善，Spark逐步占領開源市場。目前批處理仍然是最主流的計算形態(tài)，整體的優(yōu)化方向是更高吞吐/更低成本。

最近兩年，隨近實時方向的興起（以開源ApacheDelta/Hudi為代表），批處理數據從接入到計算的延遲得的顯著的降低，給用戶提供了一種成本/延遲的另一個平衡點。

（3）交互式分析——通常是面向分析場景（人驅動，中小規(guī)模輸入數據/小規(guī)模輸出數據），在中小規(guī)模cook好的數據上（通常是批處理之后的數據），基于更快的存儲、更多的內存（bufferpool）、更實時的數據更新（通常是基于LSMTree的方案），也采用更多的OLAP優(yōu)化技術（例如PlanCache）。優(yōu)化方向更偏延遲（而非成本和吞吐率）。技術棧發(fā)展上，有兩個脈絡，一個是從分布式數據庫角度發(fā)展起來，采用MPP架構，例如開源領域的Apache Impala和Clickhouse，自研領域的AWS Redshift。另一個是更偏云原生和大數據的架構，例如Apache Presto。

批處理和交互分析，有天然的統(tǒng)一需求，因此很多自研的分析引擎也包括一定的批處理能力，形成一體化，例如當前如日中天的SnowFlake。而google BigQuery采用附加交互引擎（內置一個更快的BIEngine）的方式形成一體化。從細節(jié)看，交互分析的引擎優(yōu)化更偏數據庫類優(yōu)化方向，更強調用好Memory和Index，Plan相對簡單，對QueryOptimizer要求低，不需要支持豐富的UDF，也不需要做Query中間的failover。批處理引擎更面向吞吐量（Throughput）優(yōu)化，核心是更優(yōu)化的Plan以及盡量降低IO，同時對failover要求高（因此部分數據要落盤）。這也是為什么BigQuery選擇雙引擎的原因。

（4）流處理——采用ContinuousProcessing的計算模式，通過本地狀態(tài)保存（State）和CheckPoint（CP，用來做failover），形成分布式增量計算引擎。這種計算模式與BSP架構不同。主打的場景是實時大屏，監(jiān)控報警以及最近流行的實時機器學習。系統(tǒng)面向低延遲優(yōu)化，處理的是流式寫入的數據，一致性模型（Exact-OnceVS Atleast-Once）、LateEvent處理方式、以及Window函數支持是不同流計算引擎設計的取舍。開源領域Spark Streaming、Apex、Heron和Flink經過競爭，F(xiàn)link因具備完整Exact-Once語義保證和完善的LateEvent處理能力，最終獲得社區(qū)廣泛的關注。

（5）機器學習(ML)/深度學習(DL)——以統(tǒng)計為基礎理論的傳統(tǒng)機器學習有豐富的生態(tài)，包括Python系、Matlab等等。大數據領域SparkMLib以一套數據多種計算的優(yōu)勢，一度成為大數據傳統(tǒng)算法的主流。隨AlphaGo引爆深度學習領域，TensorFlow和Pytorch成為業(yè)界標桿。目前DL領域仍然處于紅海期，模型并行化以及超大模型是近期的熱點。特別的，隨DL興起，Python作為標準語言開始流行，Spark推出Koalas用于連接大數據與AI開發(fā)，Python有取代Java成為命令式編程類（Imperitive）大數據開發(fā)語言的潛力（Decleritive類編程標準一直是SQL）。

（6）其他小眾計算模式——因滿足不同細分場景，還有包括圖計算，文本檢索等引擎。圖領域細分成三個子場景：圖計算、圖分析和圖學習。分布式圖分析場景目前仍未有完善的方案，圖語言也在發(fā)展期，未形成統(tǒng)一標準。文本檢索領域，主要基于倒排索引技術，開源生態(tài)ElasticSearch成為生態(tài)主流。限于篇幅，這部分不再做更細節(jié)的介紹。

展望未來，我們看到可能的發(fā)展方向/趨勢主要有：

近實時化成為主流：近實時化方案，是在分鐘級的延遲上做到數據的一致性，幾乎不用依賴大量內存的BTree系統(tǒng)和常駐的服務，將成本降低到幾乎和離線一致，在延遲和成本間找到一個新的平衡，會逐步取代部分離線的作業(yè)。
IoT領域興起：隨設備的智能化和5/6G網絡興起，面向IoT的分析會逐漸火熱。計算形態(tài)可能會發(fā)生變化，從云為中心演進到云邊端一體。
大數據平臺/引擎整體云原生化：新興的引擎均基于云的架構重新設計，充分利用云的優(yōu)勢，降低復雜度的同時提供更多價值。隨云原生化，Shared-Everything架構成為未來的演進趨勢。
Learned based優(yōu)化：機器學習技術會充分融入大數據系統(tǒng)（甚至任何系統(tǒng)）的設計，優(yōu)化器、調度系統(tǒng)、存儲格式、Index/MV設計等多個領域均會大量使用AI的技術來做優(yōu)化。例如Cost based Optimization中的基于Statistics的Cost推導，會大量被Learn based Statistics取代。

5.框架與接入層

接入層和管控是一個子系統(tǒng)，主要用于服務背后的主系統(tǒng)。從架構和功能角度上看，與大多數服務的接入層差異不大，也不存在明確的演進和代差，因此簡要概述。唯一值得一提的是，隨越來越多的大數據平臺走向“托管化”或者說“服務化”，框架管控層越來越厚，大多數企業(yè)級能力增強來自管控部分。例如，計算引擎是數倉類產品的核心，但最終用戶需要的遠不止引擎本身而是好用的數據倉庫產品，就像發(fā)動機是汽車的核心部件，但用戶所需的是完整、好開的汽車。

接入和管控層，抽象下來，主要功能包括：

a. 前端API接入：是系統(tǒng)對外的接口，通常提供HTTP協(xié)議接入，并具有認證、流控能力。部分系統(tǒng)提供Web接入能力。

b. 服務層：包括更多的業(yè)務邏輯，例如用戶/租戶管理，提供服務層面的訪問控制，以及服務級別的流控。對于引擎來說，服務層很可能包括編譯與作業(yè)分發(fā)能力，異常作業(yè)的檢測與隔離等等。有些系統(tǒng)為了簡化將API接入與服務層合二為一個服務進程。

設計考慮：

a.服務于背后的主系統(tǒng)，功能隨后臺變化而變化，并沒有“一定之規(guī)”。

b.管控層直接決定系統(tǒng)的可用性，因此也需要完善的容災能力，無狀態(tài)的服務組件通常依托部署系統(tǒng)實現(xiàn)容災，對于有狀態(tài)服務，通常將狀態(tài)存儲在元數據系統(tǒng)或者底層存儲系統(tǒng)中。

c.很多獨立引擎，特別是開源類，接入和管控層通常比較簡單。對于企業(yè)級服務來說，很多額外的功能都在本服務擴展，也體現(xiàn)企業(yè)級服務的價值。例如：監(jiān)控/運維能力、審計日志、計量計費、對計算系統(tǒng)熱切換的控制等。甚至包括自動化作業(yè)調優(yōu)等高級功能（例如SparkCruise，來自微軟Azure托管版的基于歷史信息的自動作業(yè)調優(yōu)子系統(tǒng)）。

d.當用戶選用多個系統(tǒng)組合搭建一套大數據平臺，不同系統(tǒng)都會有自己的管控層，造成服務的冗余和各系統(tǒng)的割裂。因此很多云平臺提供商，會致力于抽象統(tǒng)一規(guī)范和公共子模塊，例如統(tǒng)一認證協(xié)議/服務（Kerberos等）、統(tǒng)一權限管理，TerraformAPI標準等。

展望未來，我們看到可能的發(fā)展方向/趨勢主要有：

托管化 - 框架與接入層是企業(yè)級能力增強的關鍵一層，隨托管化成為大趨勢，這一層會有大量的企業(yè)級能力加入，會逐步成為關鍵層。

6. 數據開發(fā)與治理平臺

隨著大數據技術在眾多領域的廣泛應用，大量數據源需要接入大數據平臺，多種數據處理引擎和開發(fā)語言被各類技術/非技術人員人員使用，復雜業(yè)務催生了規(guī)模龐大、邏輯復雜的工作流程，數據成為業(yè)務的生命線需要重點保護，數據作為業(yè)務的原動力需要更加方便快捷的被分析和應用。

讓大數據計算平臺真正能夠服務于業(yè)務，還需要一系列數據研發(fā)和數據治理利器，以幫助數據工作者低成本和高效地獲取數據洞察，實現(xiàn)業(yè)務價值：

1. 數據集成：支持關系型數據庫、大型數倉、NoSQL數據庫、非結構化數據、消息隊列等數據源之間的數據同步，包含批量數據同步、實時數據同步、整庫數據遷移等，解決云上、跨云、跨地域以及本地IDC機房等復雜網絡環(huán)境之間的數據同步問題。

2. 元數據服務：支持不同數據源的元數據發(fā)現(xiàn)與元數據歸集，并構建數據目錄和數據血緣服務，同時為上層數據開發(fā)與數據治理提供元數據服務。

3. 數據開發(fā)：提供在線數據開發(fā)IDE，支持多種計算存儲引擎，提供批計算、實時計算、交互式分析、以及機器學習等一體化數據開發(fā)服務，為各種技術/非技術人員提供高效極致的ETL/ELT研發(fā)體驗。

4. 調度系統(tǒng)：支持大規(guī)模、高并發(fā)、高穩(wěn)定性的細粒度周期性任務調度，支持流處理、批處理與AI一體化數據任務編排，保障數據生產的時效性、穩(wěn)定性。

5. 數據治理：提供數據資產管理、數據質量控制、數據安全管理、監(jiān)控告警、數據標準、成本優(yōu)化等服務，保障數據倉庫能夠規(guī)范、健康、合規(guī)和可持續(xù)發(fā)展。

6. 數據服務：提供快速將數據表生成數據API服務的能力，連接數據倉庫與數據應用的“最后一公里”，實現(xiàn)靈活可控的數據共享交換服務。

展望未來，我們看到可能的發(fā)展方向/趨勢主要有：

低代碼開發(fā)與分析：數據的獲取、分析與應用將逐步從專業(yè)開發(fā)人員覆蓋到更多的分析師和業(yè)務人員，因此數據開發(fā)與分析工具將逐步從專業(yè)代碼開發(fā)工具向低代碼化、可視化工具演進。甚至是基于NLP和知識圖譜技術，實現(xiàn)通過自然語言執(zhí)行數據查詢。低代碼化開發(fā)與分析工具讓非技術人員也能輕松獲取數據洞察，實現(xiàn)數據價值的普惠，實現(xiàn)“人人都是分析師”。
智能編程：在傳統(tǒng)的ETL開發(fā)過程中，存在著大量重復的或相似的編碼工作，未來將在AI的加持下，通過語義分析、數據血緣探測、輸入意圖預測等技術，以智能編程助手的形式幫助開發(fā)人員實現(xiàn)更高效的編程。
開發(fā)即治理：過去我們大多習慣于先開發(fā)后治理，最終則讓數據治理成為了負擔。隨著數據規(guī)模的不斷增長、數據安全與隱私保護越來越受關注、數據業(yè)務化的持續(xù)發(fā)展，將不再允許數據治理僅僅是事后行為，數據治理將會融合到覆蓋事前、事中和事后的大數據生產與應用的全鏈路中，數據開發(fā)與治理將協(xié)同并進。

7. 智能化

隨著大數據平臺及其所承載業(yè)務的發(fā)展，我們也面臨著新的挑戰(zhàn)：

1. 10PB到EB級數據和百萬級別作業(yè)規(guī)模，已經成為主流，海量數據和作業(yè)靠人很難管理。傳統(tǒng)的DBA模式或數據中臺團隊不再勝任。

2. 多種數據融在一起，人無法在海量規(guī)模上理解數據的所有價值。

3. 大數據系統(tǒng)經過多年發(fā)展，如果需要實現(xiàn)“躍遷”式的進步，需要體系結構層面的改造。

因此AI for System的概念興起，基于AI的能力做系統(tǒng)的優(yōu)化，在數倉領域我們可以稱之為自動數倉（AutoData Warehouse）。數據湖領域也可以有更多的自動化，但因為數倉方向的數據管理/調優(yōu)能力發(fā)展更早，這個領域更領先。下圖是一個基本的自動數倉能力分類。

自動化本身并不太可衡量，我們定義了一個“自動數倉”的能力分級，類比“自動駕駛”。分為L1-L5。

1. L1級：運維能力白屏化和工具化。目前絕大多數系統(tǒng)都可以做到這個層次。

2. L2級：更好的系統(tǒng)托管化，底層系統(tǒng)對用戶透明。例如小文件Merge自動化、軟硬件升級透明、自動loadbalance等。很多全托管系統(tǒng)都可以做到這個層次（例如Snowflake、MaxCompute）。

3. L3級：中臺能力的自動化，輔助數據關聯(lián)與理解，建模與調優(yōu)。包括數據血緣，相似度，冗余度，使用情況與自動評分。輔助標簽系統(tǒng)，輔助中臺建設。市面上的很多數據中臺產品聚焦在這一層。

4. L4級：系統(tǒng)具備自學習能力。基于歷史信息的性能調優(yōu)（自動Parallelism，自動冷熱數據分層等等），資源與優(yōu)先級的動態(tài)調配，自適應的監(jiān)控和報警能力，自動數據異常識別。目前大多數系統(tǒng)的能力邊界在此，有巨大的發(fā)揮空間。

5. L5級：自動化建模。包含更高階的數據理解，能夠自動發(fā)現(xiàn)數據的內在關聯(lián)與冗余度，根據數據訪問情況，自動維護數倉體系。

最近1-2年，自動化資源管理和自動化作業(yè)調優(yōu)成為熱點，有非常多的研究性論文。幾個核心元產品也推出新能力，例如AWSRedshift的自動workload mgmt、自動key sorting和table sorting，微軟Azure的SparkCruise（@VLDB2021）用來抽象公共子查詢做MaterializedView。

智能化作為大數據體系的發(fā)展趨勢之一，上述內容即為我們對這個子領域的未來展望。

8. 安全與隱私保護

隨著大數據的發(fā)展，數據在多方數據融合場景下能發(fā)揮更大的價值。然而在這種場景下用戶的隱私保護以及數據的合規(guī)問題成為了嚴重的問題。問題的本質是數據的開放性與使用安全性的平衡。安全能力，包括數據安全/隱私保護能力，是大數據體系中的重要能力基線之一。

信息的可用性、信息的完整性、以及信息的保密性是信息安全的三個基本要素。我們將企業(yè)級大數據中臺要面臨的安全風險, 根據其所涉及的系統(tǒng)及技術領域的不同,分為三個層次。

1. 最基礎的層次是數據中心的物理安全與網絡安全，數據中心是構建大數據中臺的基礎，數據中心自身安全性和網絡接入安全性直接影響到企業(yè)大數據中臺的可用性。主要包括數據中心保障設施、數據中心安全管控、數據中心的網絡安全等幾個維度的建設。當云架構成為主流，物理安全方面通常由云廠商承擔。

2. 在這之上是企業(yè)大數據平臺的系統(tǒng)安全，由大數據平臺內部的多個安全子系統(tǒng)構成，如訪問控制、應用程序隔離、平臺可信、風控和審計等子系統(tǒng)。這些子系統(tǒng)共同保障大數據平臺的完整性。

3. 最上層是數據應用安全，貼近于用戶的應用場景。通過在這一層提供豐富多樣的數據安全產品，大數據中臺為用戶應用數據的各類業(yè)務場景提供切實可靠的數據安全能力。

下圖給出了一個基于數據生命周期的數據安全管理體系。里面有非常多的子領域，比較存儲加密、敏感數據發(fā)現(xiàn)和保護、數字水印等等。

展望未來，我們看到可能的發(fā)展方向/趨勢主要有：

數據安全共享 — 隨數據被認知為資產，數據變現(xiàn)成為一個熱門話題，它背后的技術：數據安全共享和多方安全計算也成為熱點方向?？傮w看，數據變現(xiàn)（也稱為數據安全共享），有兩種典型場景：一方數據對外售賣，多方數據交互計算。

域內多租的方案，通常需要細粒度的接入/訪問控制、計算隔離、下載保護等技術配合。主流數倉產品均提供這類方案（比如Snowflake的DataSharing）。另外，這個領域的一個研究方向是基于差分隱私（DifferentialPrivacy）加密的密態(tài)計算（例如 DPSAaS@Sigmod2019）。

多方數據交互計算方案，通常基于聯(lián)邦學習技術（FederatedLearning）。

9. 運維

運維是伴隨著任何一家公司的產品，在整個產品生命周期中一直是存在的。運維負責公司產品業(yè)務的正常運轉，處理緊急故障響應，保障業(yè)務連續(xù)性，產品可用性改進，性能&效率優(yōu)化，變更管理，監(jiān)控，容量規(guī)劃與管理等相關工作：這些是運維核心的定義所在。

隨著大數據行業(yè)的發(fā)展，運維走過了傳統(tǒng)Ops到專業(yè)化、工具平臺化、再到云化數據化、甚至是到了智能化的階段，從云計算SaaS/PaaS/IaaS三層的演進趨勢我們可以看到，IaaS與PaaS之間的分界線越來越往上走，基礎設施越來越統(tǒng)一，云化虛擬化的趨勢抹平了基礎設施層；同時SaaS與PaaS層的分界線也沒有那么清晰，在SaaS層快速構筑應用的成本越來越低，越來越多的SaaS層能力抽象后下沉到PaaS層，拿來即用，也可以說是PaaS層在往上層演進。結合云計算SPI三層的發(fā)展，我們也可以將運維粗略劃分為面向SaaS層的應用型運維、面向PaaS和IaaS層的平臺型運維。

大數據運維業(yè)務圍繞穩(wěn)定性（質量）、成本及效率主要關注如下：

1. 針對日常業(yè)務穩(wěn)定性可以分為日常事件管理、問題管理、變更管理及發(fā)布管理的標準化ITIL流程；

2. 針對成本管理包含了從資源預算、資源采購、預算執(zhí)行、財務賬單、過保替換等圍繞資源生命周期管理的相關事項；

3. 針對效率包含了如何開發(fā)一體化的運維平臺以高效支撐業(yè)務監(jiān)控、服務管理、系統(tǒng)管理、應急/安全管理等。

大數據體系發(fā)展至今，服務器規(guī)模已發(fā)展到數萬、數十萬、甚至百萬臺規(guī)模。隨著基礎設施規(guī)模的發(fā)展，運維系統(tǒng)也經歷了一個從人工、到平臺化、再到智能化的自然的演進過程，運維的演進需要能支撐起大數據基礎設施的高復雜、高安全、高可靠、高效率要求。

展望未來，我們看到可能的發(fā)展方向/趨勢主要有：

產品化：運維的產品化，本周上是指讓各類運維動作的更標準，更可控。產品化是把對本身服務客戶的產品的運維需求、和運維產品本身的需求、集成到產品功能上，并迭代傳承。同時通過這些標準化的動作，逐步把底層的一些運維數據統(tǒng)一起來。

數據化：隨著產品規(guī)模的擴大以及系統(tǒng)的復雜多產品依賴，在整個過程中會產生大量的系統(tǒng)數據，隨之數據化能力會凸顯的非常重要。數據的收集存儲，計算處理，運維數倉建設，數據分層，實時性，運營分析等相關數據化能力會逐步成為必須基本能力。重點需要關注運維數據的工程，集成，安全和質量。

智能化：在超大業(yè)務規(guī)模下，逐步按以前的傳統(tǒng)的運維操作方式不能更高效的支持好業(yè)務，一個例子對線上復雜問題的快速定位和修復。但這類人腦的規(guī)則級隨著復雜度增長以及產品周期發(fā)展不會是一個線性提升，這個時候是需要通過一些智能化算法能力去幫助處理這些海量數據，從中找到一定的結果規(guī)則，輔助加快專業(yè)人士的判斷。但這塊的技術挑戰(zhàn)非常巨大，同時對資源也有一定的消耗。但這個方向是應該持續(xù)發(fā)展。

大數據體系未來演進的4大技術趨勢

趨勢1：近實時架構興起

在離線batch計算和純流式實時計算之間，以開源Apache Delta/Hudi為代表的近實時架構成為熱點。近實時架構避免了流計算龐大的狀態(tài)存儲與管理，在成本和延遲上找到了另一個平衡。隨近實時架構的形成，計算架構最終完成從離線到實時全頻譜支持。

趨勢2：數據共享與隱私保護成為熱點

數據成為資產，開始具備可變現(xiàn)和可交易的能力?？杀Ｗo隱私的數據交換/共享能力成為強勁的需求?；贒ifferentialPrivacy的數據編碼交易，以及基于Federated Learning的多方面安全計算是該領域的熱點技術。

趨勢3：IoT成為新熱點

目前人的行為數據（日志）是大數據計算的主要來源，超過80%的數據都來源于行為日志（例如瀏覽、點擊）。隨5G+智能化設備的興起，設備日志會成為更大的數據源增長點，面向海量低價值設備數據的處理和優(yōu)化，需要得到更多的關注。

趨勢4：AI for System

AI for System，即上文中提到的大數據自動駕駛。AI作為工具，成為優(yōu)化的常用手段。在大數據領域，隨數據量/系統(tǒng)復雜度的增長，DBA模式已經不再試用。利用算法優(yōu)化系統(tǒng)成為主流方向，大數據的“自動駕駛”會越來越自動。

大數據體系內待探索的3個疑問

大數據技術收斂，并進入普惠和業(yè)務大規(guī)模應用的階段，滲透到各行各業(yè)。超大規(guī)模數據計算和基于數據的智能決策，已經是企業(yè)業(yè)務數據化運營的重要基礎。不過，在后紅海時代，大數據體系發(fā)展有3個疑問值得我們關注：

疑問1：引擎發(fā)展呈現(xiàn)跨界的趨勢，但最終是否能夠誕生一套引擎滿足多樣的計算需求，并兼顧通用性和效率？

隨大數據系統(tǒng)整體架構的穩(wěn)定，各種引擎的發(fā)展逐漸進入收斂期，批計算、流計算、交互分析、機器學習收斂成為四個核心計算模式，每個模式均有主線開源引擎成為事實標準。

過去3年沒有再誕生主流的開源計算引擎（每個模式中，引擎的發(fā)展脈絡詳見第二章節(jié)）。同時，引擎邊界開始變得模糊，HTAP等Hybrid模式成為探索的新趨勢，計算模式是否進一步收斂，收斂的終態(tài)會是什么樣子，是個熱點話題。

疑問2：關系模型之外，是否會發(fā)展出其他主流計算范式？

大數據領域整體還是以二維關系表達和計算為基礎（RelationalDB的理論基礎），是否有新的計算范式在數據庫領域也持續(xù)討論了多年，盡管有包括圖計算在內的其他計算范式，但過去的40年，關系運算持續(xù)成為主流。

其中核心原因是二維關系表達更貼近人的理解能力，或者說高維表達和處理很難被人理解和處理。但關系表達有顯著的短板，它無法處理半結構化和非結構化的數據（比如音視圖類的數據）。

近幾年興起的深度學習技術，帶來了一種全新的處理方式，海量正交化的高維特征作為輸入，由深度神經網絡理解數據，以模型作為產出的引擎計算出結果。這種方式避免人腦對數據處理的局限性，可以在更高維度更復雜數據上做處理，給未來提供了一種新的處理方式的可能性。

但深度學習核心仍然在尋找“最好”的co-relation，可解釋性，推導邏輯以及對結果正確性保證都不夠好。

疑問3：基于開源自建與直接選購企業(yè)級產品，誰更能獲得用戶的認可？

開源軟件是大數據發(fā)展的關鍵推手，助力大數據系統(tǒng)的普及化。但面臨如下挑戰(zhàn)：開源系統(tǒng)的軟件交付模式，也給很多客戶帶來高維護成本。

以一個典型的腰部互聯(lián)網企業(yè)為例，一個100臺規(guī)模的大數據平臺硬件投入大約200萬/年，同時需要維持一個3-5人的研發(fā)/運維團隊，年成本200-300萬/年。綜合TCO高達450萬/年。

這也是為什么像Snowflake這樣的自研企業(yè)級產品流行的原因，大多數不具備深度研發(fā)能力的公司，愿意為更豐富的企業(yè)級能力和更低的綜合TCO買單；大數據系統(tǒng)開發(fā)進入深水區(qū)，投資巨大，需要高商業(yè)利潤才能支持。

事實上，云計算四巨頭均有自己的自研產品提升利潤率的同時也提升差異化競爭力（例如AWSRedshift，Google BigQuery，阿里云飛天MaxCompute）。

而每個開源社區(qū)背后無一例外均有商業(yè)公司推出企業(yè)版（例如Databricks之于Spark，VVP之于Flink、Elastic之于Elasticsearch）。

因此，長期看，大多數用戶（特別是中小型）進入“技術冷靜期”后，開始審慎考慮綜合投資收益，考慮上云、以及直接采購企業(yè)級產品+服務（放棄自建平臺）。

本文試從系統(tǒng)架構的角度，就大數據架構熱點，每條技術線的發(fā)展脈絡，以及技術趨勢和未解問題等方面做了一個概述。特別的，大數據領域仍然處于發(fā)展期，部分技術收斂，但新方向和新領域層出不窮。本文內容和個人經歷相關，是個人的視角，難免有缺失或者偏頗，同時限于篇幅，也很難全面。僅作拋磚引玉，希望和同業(yè)共同探討。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

大數據體系的4個熱點，4個趨勢和3個疑問

4. 多種計算引擎并存

5.框架與接入層

6. 數據開發(fā)與治理平臺

7. 智能化

8. 安全與隱私保護

9. 運維

大數據體系未來演進的4大技術趨勢

趨勢1：近實時架構興起

趨勢2：數據共享與隱私保護成為熱點

趨勢3：IoT成為新熱點

趨勢4：AI for System

大數據體系內待探索的3個疑問

疑問2：關系模型之外，是否會發(fā)展出其他主流計算范式？

疑問3：基于開源自建與直接選購企業(yè)級產品，誰更能獲得用戶的認可？

數獨大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓練成績評定2018-06-03

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

大數據體系的4個熱點，4個趨勢和3個疑問

4. 多種計算引擎并存

5.框架與接入層

6. 數據開發(fā)與治理平臺

7. 智能化

8. 安全與隱私保護

9. 運維

大數據體系未來演進的4大技術趨勢

趨勢1：近實時架構興起

趨勢2：數據共享與隱私保護成為熱點

趨勢3：IoT成為新熱點

趨勢4：AI for System

大數據體系內待探索的3個疑問

疑問2：關系模型之外，是否會發(fā)展出其他主流計算范式？

疑問3：基于開源自建與直接選購企業(yè)級產品，誰更能獲得用戶的認可？

數獨大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓練成績評定2018-06-03

疑問2：關系模型之外，是否會發(fā)展出其他主流計算范式？

疑問3：基于開源自建與直接選購企業(yè)級產品，誰更能獲得用戶的認可？