數字經濟在國民經濟社會發展的重要性日漸凸顯。“數字化”一詞多次在政府工作報告中被提到,“十四五”更是明確了“加快數字化發展,建設數字中國”的遠景目標,突出了數字經濟的戰略性地位。作為推動數字經濟發展的中堅力量,企業的數字化轉型需求也在不斷增長,與此有關的云計算、大數據和人工智能為代表的新一代信息技術也在不斷創新迭代。
何謂數字化轉型?
企業數字化轉型包括兩個方面,一是客戶體驗的數字化,即以客戶為中心,更接近、滿足、贏得和持續贏得客戶;二是運營管理數字化,及定制產出、縮短渠道、柔性供應、敏捷服務、集成布局。其特點是以云、大、物、智、移等技術結合運用新技術為業務提供創新的價值,業務和管理的全過程數字化為核心。
2021年以來,數字化轉型已經成為國家戰略。十四五規劃提出,迎接數字時代,激活數據要素潛能,推進網絡強國建設,加快建設數字經濟、數字社會、數字政府,以數字化轉型整體驅動生產方式、生活方式和治理方式變革。根據規劃,企業數字化轉型必然驅動“四化”企業成為市場強者:
1.智能化業務決策,精準實時把握客戶需求、合理化資源配置;
2.一體化運營管理,部門橫縱端到端協同,及時高效解決運營問題;
3.生態化價值合作,連接和整合價值鏈,共享共贏發展;
4.敏捷化變革創新,技術契合業務能力和水平,動態引領市場。
數字化轉型歷經了從 “資源自動化”到“應用多樣化”的轉變。隨著數字化的普及,數字社會的復雜度越來越高,企業越來越需要低門檻、高便利性的數字化工具。未來,還應進一步鼓勵和支持互聯網、云計算等平臺,積極發展云原生和低代碼開發等新興技術方法,降低技術和業務的耦合性,讓企業尤其是廣大的中小企業一定程度上避免底層復雜的技術開發,專注于商業本身,快速、靈活地部署應用。
大數據技術發展
大數據總體上可以劃分為以下四個階段:數據庫時代、探索期、發展期、普惠期,目前我們正處于大數據的普惠期,在這個時期,大數據應用滲透到各行各業,大數據價值不斷凸顯,數據驅動決策和社會智能化程度大幅提高,大數據產業迎來快速發展和大規模應用實施。
隨著大數據發展,也衍生出了一系列的大數據架構,從數據庫、數據倉庫,到數據平臺,再到數據湖、湖倉一體。
(1)數據倉庫、大數據
早期系統采用數據庫來存放管理數據,隨著大數據技術的興起,設計了一套適合結構化數據的數據存儲管理系統,即數據倉庫。但是許多現代企業必須處理非結構化數據,半結構化數據以及具有高多樣性、高速度和高容量的數據。數據倉庫不適用于許多此類場景,并且成本效益并非最佳。
直到Hadoop的出現,有了處理大規模數據的技術和能力,大數據在這一刻才真正的成為我們口中所說的“大數據”。Hadoop 開啟大數據時代后,傳統的關系型數據庫就從時代舞臺的中心退居了幕后。等到非關系型數據庫誕生后,人們甚至更激進地提出了“NoSQL”運動,試圖拋棄 SQL 及其關系型數據庫,但是隨著大數據熱潮的褪去,非關系型數據庫的缺陷漸漸為人所知,人們開始重新審視關系型數據庫,并認為“NoSQL”其實是“Not Only SQL”,而不是“No SQL”。
(2)數據湖、湖倉一體
隨著當前大量信息化發展和電子設備產品普及,產生大量的非結構化數據,所以設計了一個比數據倉庫還要大的系統,可以把非結構化和結構化數據共同存儲和做一些處理,這個系統叫做數據湖。數據倉庫的成長性很好,而數據湖更靈活。數據倉庫支持的數據結構種類比較單一,數據湖的種類比較豐富,可以包羅萬象。數據倉庫更加適合成熟的數據當中的分析和處理,數據湖更加適合在異構數據上的價值挖掘。
數據湖雖然適合存儲數據,但缺少一些關鍵功能:它們不支持事務處理,不保證數據質量,并且缺乏一致性/隔離性,從而幾乎無法實現混合追加和讀取數據,以及完成批處理和流式作業。由于這些原因,數據湖的許多功能尚未實現,并且在很多時候喪失了數據湖的優勢。
因此“湖倉一體”的概念應運而生,它打破了數據倉庫和數據湖之間的壁壘,使得割裂的數據融合統一,減少了數據分析中的搬遷,實現了統一的數據管理,有利于發現更多數據價值。
湖倉一體是一種新型開放式架構,將數據湖和數據倉庫的優勢充分結合,它構建在數據湖低成本的數據存儲架構之上,又繼承了數據倉庫的數據處理和管理功能。而數據倉庫和數據湖的融合有兩個方向,第一個融合方向是在數據湖基礎上增加數據倉庫能力,第一種模式目前業界已經涌現了一些Lakehouse產品,如Netflix開源Iceberg、Uber開源Hudi、Databricks的Delta Lake;第二個融合方向是數據湖和數據倉庫協同起來,向湖倉一體的融合分析架構發展,即邏輯數據倉庫LDW,也就是國雙的新產品“國雙GDP數智平臺”。湖倉一體可以認為是邏輯數據倉庫架構理念下針對Hadoop數據湖和MPPDB數據倉庫的融合架構。數據對用戶完全實現虛擬化,以邏輯統一的數據系統為企業提供數據分析服務。平臺層面,Hadoop與MPP具備數據共用和跨庫分析能力,通過互聯互通、計算下推、協同計算,實現數據在多個數據平臺之間透明流動。
大數據結構發展的同時,大數據領域相關的技術也在不斷涌現,它們成為大數據存儲、計算的有力武器。
存算分離
2004-2006年間,Google陸續發表了Google File System、MapReduce和BigTable三篇革命性技術的文章,奠定了分布式系統理論基礎。隨后以這三項技術為核心的開源框架如雨后春筍般涌現出來,Apache基金會開發的分布式系統基礎架構Hadoop便是其中之一。由于Hadoop能夠在開發者不了解分布式底層細節的情況下,利用集群的計算和存儲能力,對大量數據進行可靠、高效、可伸縮的分布式高速運算,成為了大數據分析時代驅動數據價值挖掘和變現炙手可熱的技術之一。而在Hadoop三代版本的演進中證明了存算分離已成為大數據建設的必然趨勢。
存算分離針對存算一體的弊端進行優化,為企業控制成本和提升數據運行的效率提供了新的思路,帶來了四大價值:
1.可靠性提升:外置共享存儲可靠性結合云原生故障隔離和遷移能力,解決一體化方案可靠性短板,并為降低資源冗余提供基礎;
2.資源優化:解決數據快速移動,實現計算、存儲彈性擴展,按需分配,減少因可靠性、運維能力不足造成的硬件冗余;
3.能力復用:使用共享存儲成熟的備份恢復、SSD介質延壽、亞健康等能力,快速提升數據庫整體解決方案能力,節約開發成本;
4.架構先進:基于開放生態存儲底座,可快速實現云原生數據庫能力,不影響上層應用,實現平滑演進。
隨著5G、分布式技術、云計算的不斷發展,及各行業數字化轉型的不斷深入,數據庫云化、數據庫云原生架構已成為趨勢,計算、存儲分離,采用共享存儲的方式是數字化轉型企業共同的選擇。
流批一體
自 Google Dataflow 模型被提出以來,流批一體就成為分布式計算引擎最為主流的發展趨勢。流批一體意味著計算引擎同時具備流計算的低延遲和批計算的高吞吐高穩定性,提供統一編程接口開發兩種場景的應用并保證它們的底層執行邏輯是一致的。對用戶來說流批一體很大程度上減少了開發維護的成本,但同時這對計算引擎來說是一個很大的挑戰。
作為 Dataflow 模型的最早采用者之一,Apache Flink 在流批一體特性的完成度上在開源項目中是十分領先的。Flink 遵循 Dataflow 模型的理念: 批處理是流處理的特例。不過出于批處理場景的執行效率、資源需求和復雜度各方面的考慮,在 Flink 設計之初流處理應用和批處理應用盡管底層都是流處理,但在編程 API 上是分開的。這允許 Flink 在執行層面仍沿用批處理的優化技術,并簡化掉架構移除掉不需要的 watermark、checkpoint 等特性。
在大數據場景下經常需要數據同步或者數據集成,也就是將數據庫中的數據同步到大數據的數倉或者其他存儲中。全量的同步和增量的同步實際上是兩套技術,需要定期將全量同步的數據跟增量同步數據做 merge,不斷的迭代來把數據庫的數據同步到數據倉庫中。
基于 Flink 流批一體,整個數據集成的架構將不同。因為 Flink SQL 也支持數據庫(像 MySQL 和 PG)的 CDC 語義,所以可以用 Flink SQL 一鍵同步數據庫的數據到 Hive、ClickHouse、TiDB 等開源的數據庫或開源的 KV 存儲中。在 Flink 流批一體架構的基礎上,Flink 的 connector 也是流批混合的,它可以先讀取數據庫全量數據同步到數倉中,然后自動切換到增量模式,通過 CDC 讀 Binlog 進行增量和全量的同步,Flink 內部都可以自動的去協調好,這是流批一體的價值。
大數據應用
大數據計算發展至今,已經形成了一個百花齊放的大數據生態,通用計算、定制開發,批量處理、實時計算,關系查詢、圖遍歷以及機器學習等等都可以找到各種對應的計算引擎來協助我們處理這些任務。
大數據無處不在,包括金融、汽車、餐飲、電信、能源和娛樂等在內的社會各行各業都已經融入了大數據的印跡。
國雙自研的大數據平臺也在工業、能源、安全、司法、財稅、交通等上百個數字化、智能化轉型的項目實踐中得到檢驗。
(1)某大型能源集團大數據平臺項目
本項目是對某大型能源集團公司“十三五”信息技術總體規劃中的綜合管理類項目,構建了生產經營數據匯聚、共享和應用的云化服務平臺,具有集團級數據,具備大數據計算、數據挖掘、敏捷分析、可視化等能力,遵循平臺統一,應用自主的原則為集團各層級提供數據、應用、工具的共享服務,各類數據分析應用都基于數據倉庫和大數據平臺進行實現。
平臺為各個應用提供了穩定高效的數據,發揮了大數據分析平臺的應用價值。目前已采集196套數據庫系統和所需的企業外部數據,支持上萬個數據周期處理作業流,結構化數據量超過2PB,非結構化數據近1PB,形成21個一級主題域、70個二級主題域、近500個三級主題和3000多個業務實體的數據資源目錄。
項目完成了Zeta、敏捷BI、管理駕駛艙、云平臺、數據挖掘工具箱、平臺監控、數據監控、應用監控、8套安全產品及需求定制開發,助力企業完成信息化、數字化的目標。
(2)GDP產品誕生
大數據產品百花齊放,國雙作為中國領先的企業級大數據和人工智能平臺軟件廠商也不落其后。2008年,國雙推出了第一個數據智能產品WD,自2009年以來,基于大數據平臺發布了一系列產品和解決方案,2019年,Zeta大數據平臺產品也正式投入使用。
2022年,Zeta改版升級成為國雙大數據平臺(Gridsum Data Platform)。GDP是一款為企業、行業提供高性能、敏捷、智能化的大數據平臺,以“數據驅動”為核心,在企業數字化轉型過程中,通過“數據智能化,協同一體化、應用場景化、創新敏捷化、模式生態化”持續構建企業的核心數據能力,支持企業快速、高效、低成本進行業務創新和增強的企業架構。
后續我們將推出系列文章詳細為大家介紹國雙GDP大數據平臺的設計思想與特點,敬請期待。