在全球著名咨詢機構Gartner發布的2022年頂級戰略技術趨勢中,Date Fabric不僅首先被提及,甚至被定義為“數據管理的未來”。作為新興的熱門市場,Data Fabric自誕生之日起就備受關注,全球最大的信息技術和業務解決方案公司IBM、數據集成領域領導者Talend、集成分析領域領導者TIBCO、元數據管理領導者Alation等全球各數據領域頭部廠商都給出了對應的能力要求和解決方案。
從三年前的概念出現到如今落地實施并取得具體業務結果,Data Fabric海外爆火的背后反映了市場需求的變化。伴隨數字化和智能化的推進,越來越多企業面臨著高成本&低價值的數據集成、不斷攀升的運維成本、不斷增長的實時數據需求等多重挑戰,基于主動元數據、語義、知識圖譜、數據虛擬化、AI等技術的Data Fabric成為應對數據類型多樣化以及數據量激增的最佳解決方案。
通過實施Data Fabric,企業不僅可以減少一半以上人力驅動的數據管理任務、70%的數據管理工作,讓數據質量及運營成本降低65%;還能以8倍的速度、不到一半的成本,獲取數據和洞察——基于Data Fabric產生的數據洞察,可以使企業平均每年增長30%以上。(數據來源:Gartner)
盡管以上每一項收益都足以讓企業管理者心動,國內卻遲遲沒有基于這項全新的關鍵技術趨勢完成系統化落地。曾任螞蟻集團研究員(P10)、數據平臺部總經理周衛林帶領業界頂級數據專家團隊創立Aloudata大應科技,致力于打造首個NoETL湖倉平臺,內置增強數據目錄、語義知識圖譜、主動元數據、數據推薦引擎、數據虛擬化、數據編排和Dataops等Gartner定義的6大Data Fabric核心能力,是當前國內Data Fabric最佳實踐。
國內Data Fabric最佳實踐:NoETL重塑數據供給和管理方式
Data Fabric的終極目標是為數據集成和訪問提供一種更靈活、更無縫、更自動化的方法。而Aloudata提出的NoETL方案,正是創始團隊基于過去在螞蟻集團建設金融級數據平臺以及EB級數據管理經驗所提煉的Data Fabric最佳實踐,顛覆了傳統模式下基于ETL的數據生產鏈路,致力于讓企業每個人都能快速發現可信數據、自助分析全域數據,并實現主動、持續的數據治理,讓企業數據隨時就緒。
傳統鏈路下,業務方和分析師提出任何一個數據需求,都繞不開ETL工程師這個中間角色,從找數、運維再到性能優化,各個環節都需要深度依賴ETL工程師才能完成,導致數據生產根本“快”不起來。
假設有100個數據需求被同時提出,ETL工程師就不得不安排優先級并逐一解決。然而爆發式增長的數據需求遠遠超出了ETL工程師的增長速度,在實際工作場景中,多達80%的數據需求無法滿足,即便是有幸被滿足的那20%,從提出需求到需求交付的時間至少以周計。
Gartner公布的數據再次印證了這一點:分析師80%的時間用于發現和準備數據,知識型員工將50%的時間浪費在尋找數據、發現和糾正錯誤以及確認不信任的數據來源上,數據科學家花60%的時間清理和組織數據。
不僅如此,不斷增長、日趨復雜的ETL數據管道帶來了治理困難和風險隱患,大量已失效的ETL任務無法得到及時下線,帶來了嚴重的資源浪費,依賴于ETL工程師的機械式流程亟待改變。
NoETL問世,引領行業變革
所謂NoETL,是指在數據處理和分析環節,用戶無需搭建復雜ETL鏈路、無需等待漫長排期即可靈活分析所有數據,實現敏捷數據洞察和高效一致的數據協作,能夠以更低的成本、更迅速地做出可信業務決策。
NoETL的問世,無疑將引領一場前所未有的行業變革。提出這一理念的同時,Aloudata還進一步定義了具體可落地的NoETL技術標準——全場景自適應的彈性SQL引擎Aloudata AIR Engine(以下簡稱“AIR”),以幫助企業快速啟用分析和洞察力,實現業務成功。
AIR基于NoETL理念做到無論數據是在數據湖、數據倉庫或者其他地方,每個人都可在Ad-hoc、多維分析、報表等多場景下自助進行全域數據探索并定義一致的數據視圖,幫助企業實現100倍性能提升、10倍以上數據化運營效率提升以及30%以上存儲成本節約。
No Pipeline:去管道,無需關心數據位置
AIR通過湖倉查詢引擎和數據虛擬化技術,實現多源異構數據查詢和透明數據集成,大幅削減了數據搬運、控制了數據管道的無序增長。BI分析師減少了對ETL工程師的單向依賴,不需要再關心數據實際存放位置,也不必再搭建復雜的ETL數據管道,直接通過SQL定義彈性數據集就能夠自助對全域數據進行數據準備和分析。
No Task:免運維,無需操心任務運維
無需人工任務運維,AIR能夠通過對用數行為的收集和觀察,實現數據生產鏈路的智能編排、運維和治理,針對重復、相似計算進行自動合并,針對無效、低頻、低價值數據的生產任務進行降權或下線,以“銷”定產,大幅節省管理投入。
No Cube:自優化,無需擔心查詢性能
AIR 基于用戶查詢行為實現了自適應的查詢性能優化,無需Cube/索引構建,BI分析師可自助完成數據準備,無需擔心查詢性能,專注業務分析與洞察。
通過對現有數據生產鏈路的優化與升級,AIR讓企業每個人隨時可對全域數據開啟自助分析與洞察,快速突破ETL工程師人力瓶頸,充分釋放過去因為ETL資源受限而被堆積和抑制的運營分析需求。
NoETL落地某大型股份制銀行:10倍提升數據化運營效率
隨著業務數字化運營不斷深入,某大型股份制銀行于數年前開始引進和自研BI工具,并大規模推行全行分析師自助分析和報表制作,截止2021年,全行報表達數千張,月活看數人群達萬級,并仍在高速增長中。
數據分析和報表制作環節的自助,進一步催生了行內數據分析需求的爆發,但前置的數據準備環節卻無法同步提高產能,數據運營效率仍然存在顯著瓶頸。究其根本,在于該銀行現有的基于ETL的數據生產鏈路存在以下弊病:
-數據分散在數據倉庫、數據湖和業務數據庫中,分析師開展數據分析和報表制作往往需要依賴ETL團隊對數據進行匯集和預加工,交付周期以周計;
-當前基于ETL的數據集成和加速方案需要對數據做大量搬運,顯著拖慢了報表的數據時效;
-業務數據分析需求快速變化,ETL工程師預先設計的數據查詢加速方案很難同時兼顧靈活性和性能,報表查詢性能難以保障。
可見,當前基于ETL的數據供給模式已經無法支撐快速增長的數據分析需求。
為解決上述問題,該銀行基于Aloudata AIR Engine自研了敏捷數據準備平臺,為全行分析師提供了全域自助找數、面向業務語義準備數據、查詢自適應加速的敏捷數據分析體驗,讓全行分析師可以端到端全自助完成數據分析需求交付,將業務取數看數效率從周級縮短到了天級,并實現了高性能、低時延的報表看數體驗,10倍提升全行數據化運營效率。
NoETL,驅動企業增長的數據引擎
Data Fabric在國外大受追捧,而在國內剛剛起步。正如10年前大數據概念在國外興起,不到3年就被中國廣泛應用,可以預見的是,Data Fabric在國內也將被越來越多的企業用于解決數據資產多樣性、分散性、規模化和復雜性不斷增加以及數據使用人群和應用場景爆發式增長帶來的一系列問題。
作為國內Data Fabric先行者,Aloudata致力于幫助企業快速構建面向未來的下一代數據平臺,擺脫傳統低效的數據供給與管理方式,輕松應對未來日益復雜的數據環境和蓬勃旺盛的業務分析需求,幫助業務尋找新的機會點和創新點,建立可持續發展機制與核心競爭力。目前,Aloudata已與多家頂級金融機構合作共創,基于真實復雜的業務場景,探索全民可用的NoETL新模式。
【關于Aloudata】
Aloudata(浙江大應科技)是一家NoETL湖倉平臺服務商,Data Fabric理念踐行者。公司創始人曾任螞蟻數據平臺部總經理(P10),是螞蟻數據技術主要開拓者和奠基人;創始團隊均為原螞蟻集團數據平臺核心成員。Aloudata是數據湖倉架構的先行者,自主研發的AI增強湖倉引擎可實現數據分析性能自適應優化以及數據治理“自動駕駛”,幫助企業實現10倍以上的數據化運營效率提升。目前,Aloudata已順利完成兩輪融資。