譯者 | 李睿
審校 | 重樓
數據網格作為一種新的數據管理方法,在業界越來越受到關注。然而在興奮之余,人們對其復雜性以及能否兌現承諾表示擔憂。本文將深入探討數據網格的復雜性,解決圍繞其是否過時存在的巨大爭議,并探索它所帶來的機遇和挑戰。此外,還將討論該行業可能缺少的內容以及可能阻礙其成功實施的潛在障礙。
數據網格:民主化和可擴展數據架構的范例
經常使用的“數據網格”這一術語是什么意思,為什么要考慮實現數據網格?
類似于軟件工程團隊如何從單片應用程序過渡到微服務架構,數據網格代表了微服務的數據平臺。數據網格的靈感來自軟件建模專家Eric Evans的“領域驅動設計”理論,該理論主張與特定業務領域保持一致的靈活和可擴展的軟件開發,它提供了一種類似的方法。
與傳統的單片式數據基礎設施不同,傳統的單片數據基礎設施在集中的數據湖中處理數據消耗、存儲、轉換和輸出,數據網格支持分布式、特定領域的數據消費者。它將“數據視為產品”,每個領域都負責管理自己的數據管道。
關鍵是,根據數據網格原則,領域團隊承擔底層平臺或數據存儲層的所有權,這引發了一些爭議。這些領域通過通用互操作層連接起來,遵循一致的語法和數據標準。雖然可能會出現一些基礎設施重復,但某些團隊已經采用了更集中的平臺,從而產生混合的“數據網格”結構。
在自助服務商業智能時代,許多企業宣稱自己是數據優先的組織,這有些令人尷尬。然而,并不是所有這些公司都優先考慮其數據架構的民主化和可擴展性。
行業領先的企業認識到數據的變革潛力。例如,一些首席執行官成為Snowflake和Looker等技術的早期采用者,或者首席數據官(CDO)領導團隊進行了關于數據管理最佳實踐的培訓,而首席技術官(CTO)則投資了專門的數據工程團隊。盡管如此,數據團隊都渴望一種更簡單的方法來滿足企業不斷增長的需求,從處理連續的特殊查詢到通過集中的提取、轉換、加載(ETL)管道管理不同的數據源。
在追求民主化和可擴展性的基礎上,人們意識到,當前的數據架構可能難以滿足企業不斷發展的需求,通常僅限于孤立的數據倉庫或實時流功能有限的數據湖。
幸運的是,有一種解決方案可以為數據管理提供一種全新的視角——數據網格,這是一種在整個行業掀起波瀾的架構范式。
值得注意的是,數據網格經常與“數據結構”這一術語混淆,“數據結構”是由Forrester公司分析師在世紀之交提出的。數據結構包含由虛擬管理層鏈接的現代數據平臺組成的各種異構解決方案。然而,它并沒有像數據網格那樣強調去中心化和領域驅動的架構。
數據網格的消亡是炒作還是現實?
在社交媒體討論領域,已經有人猜測數據網格將會消亡。數據網格是由ThoughtWorks公司前首席顧問Zhamak Dehghani于2019年提出的,他提出了一種通過分布式架構管理分析數據的新方法。通過使最終用戶能夠直接訪問和查詢原始位置的數據,數據網格消除了在數據湖或數據倉庫中進行集中的需要。在這種模式下,數據被視為一種產品,其所有權歸屬于最密切參與其消費和理解的團隊。
引入這個概念是為了解決企業所面臨的挑戰,這些挑戰依賴于集中式數據平臺架構,提供可擴展的解決方案,并通過及時決策和為民主化數據擁有數據產品的交付。數據網格解決了與大規模數據可用性和可訪問性相關的問題,使業務用戶和數據科學家能夠從不同的數據源中提取、分析和操作有價值的見解,無論其位置如何。此外,它不需要專業數據團隊的持續干預。
雖然數據網格是一個相對較新的概念,但圍繞其消亡的討論已經引起了人們的關注。以下深入探討導致這樣的懷疑日益增長背后的原因。
Cloudera數據平臺促進了數據網格架構的關鍵原則,即領域所有權、數據即產品、自助服務平臺和聯合治理。
數據網格的復雜性:超越技術層面
數據網格不僅僅是技術方面的問題;它包含了數據管理的核心原則。它包括按領域管理數據、將數據視為產品、啟用自助服務數據平臺以及實現聯合計算治理。這些支柱構成了數據網格的基礎,并塑造了其整體價值主張。
- 面向領域的數據所有者和管道:在數據網格架構中,數據所有權在負責將其數據作為產品提供的領域數據所有者之間聯合起來。這種方法支持跨不同位置的分布式數據之間的通信和協作。
雖然數據基礎設施負責為每個領域提供必要的解決方案來處理數據,但領域本身管理數據的攝取、清理和聚合,以生成業務智能應用程序可用的資產。每個域都擁有自己的提取、轉換、加載(ETL)管道,而一組適用于所有領域的功能處理原始數據的存儲、編目和訪問控制。一旦數據被提供給特定的領域并被轉換,領域所有者就可以利用它來滿足他們的分析或操作需求。數據沿襲在理解整個組織的消費模式和支持向更分散的結構過渡方面起著至關重要的作用。
- 自助服務功能:數據網格利用面向領域的設計原則提供自助數據平臺,允許用戶抽象技術復雜性并專注于其特定的數據用例。數據網格將與領域無關的數據基礎設施功能集中到一個共享平臺中,以解決在每個領域中維護數據管道和基礎設施所需的重復工作和技能問題。這個中央平臺處理數據管道引擎、存儲和流基礎設施。與此同時,每個領域都利用這些組件來運行定制的ETL管道,提供必要的支持來服務于它們的數據,同時保持流程的自主性。
- 通信的互操作性和標準化:每個領域的核心是一套通用的數據標準,可在需要時促進領域之間的協作。由于某些數據(包括原始數據源和經過清理、轉換和服務的數據集)對多個領域變得有價值,因此跨領域協作是必不可少的。數據網格通過標準化格式、治理、可發現性和元數據字段以及其他數據特性來實現這一點。此外,與單個微服務類似,每個數據域定義并同意它們向其消費者保證的服務水平協議(SLA)和質量指標。
- 面向領域的數據治理:在數據網格架構中實施面向領域的數據治理方法,以確保符合全球和監管約束和政策。這種方法利用聯合服務來保護企業的數據和系統。
聯合治理模型允許實施數據保護措施,同時適應每個領域的獨特需求。它確保根據適用的法規和策略保護數據和系統,為在域級別管理數據隱私、安全性和遵從性提供框架。
通過實現聯合治理,數據網格架構促進了數據治理的結構化和協調的方法,支持對數據資產的有效管理,同時保持對相關法規和策略的遵從性。
對領域名稱所有權的關注
數據網格的一個關鍵問題在于領域所有權的概念。雖然讓各個業務領域擁有和管理自己的數據似乎很有吸引力,但這也引發了潛在的孤島和碎片化問題。在處理企業范圍的數據治理或主數據管理時,領域的概念可能導致數據視圖的不完整。在授權領域所有者和確??缬驍祿f作之間取得平衡是一個需要解決的挑戰。
數據網格的模糊參數
理解數據網格的一個重大挑戰是需要特定的指導方針和參數。圍繞數據網格使用的語言通常圍繞著新的思維方式和不同的數據處理方式。雖然提到了聯合數據存儲和數據虛擬化等概念,但缺乏明確的實現指南。這種模糊性使得企業在采用數據網格時難以彌合理論與實踐之間的差距。
數據網格“消亡”背后的現實
2022年6月,調研機構Gartner公司發布了《2022年炒作周期數據管理》,該報告根據采用水平和預計的主流采用時間表評估了技術的成熟度。這個周期有助于數據和分析領導者識別有前途的技術,并確定評估和采用的合適時機。
根據這份報告,數據網格目前處于“創新觸發”階段,尚未達到“膨脹預期的峰值”。根據預測,它將在達到平臺期之前過時。
Gartner公司的分析師Mark Beyer、Ehtisham ZAIdi和Robert Thanaraj量化了數據網格的感知效益,并指出其在目標受眾中的市場滲透率也相對較低,在1%到5%之間。圍繞數據網格的炒作源于聲稱它解決了集中式數據倉庫、數據湖和數據中心的挑戰。
為什么會發生這種情況?
Gartner公司解釋說,數據網格解決方案利用業務應用程序以去中心化的方式捕獲和分發數據。在通常情況下,當集中式方法未能產生令人滿意的結果時,通常是由于實施和交付方面的挑戰而采用分散的數據管理方法。然而,隨著支持集中式數據訪問的技術和解決方案的進步,像數據網格這樣的分布式方法預計將在企業IT中失去流行性。
在這份報告發表之后,行業專家對Gartner公司的觀察結果表示支持和反對。Data Mesh Radio主持人Scott Hirlman批評Gartner公司對供應商和技術的偏見,聲稱數據網格不太可能過時。
Gartner公司前分析師、現任Profisee公司數據策略主管Malcolm Hawker為Gartner公司的觀點進行了辯護。他澄清道,Gartner公司并不認為數據網格目前已經過時,與其相反,這張圖表預示著未來的過時。Hawker表達了Gartner公司的理念,即數據結構將成為主導的數據管理架構模式,最終使數據網格過時。
數據網格和核心原理與技術的融合
業界廠商正在努力解決如何將數據網格的核心原則和理論與技術和流程的實際方面相結合的問題。雖然將數據視為產品并接受以領域為中心的所有權的想法很有吸引力,但實際的實現和標準化提出了重大挑戰。企業必須在采用數據網格原則和確保他們擁有正確的工具、技術和流程來有效地支持它之間找到平衡。
從過去的錯誤中吸取教訓
數據網格是分散數據管理的眾多嘗試之一。根據以往的經驗,例如從集中式數據倉庫到以領域為中心的方法的轉換都面臨著挑戰。必須從過去的錯誤中吸取教訓,并評估技術的進步和日益加深的理解是否能夠克服以前面臨的障礙。
需要明確和解決棘手的問題
為了確保數據網格的成功,需要明確其原則、治理模型和跨功能數據的處理。需要解決一些棘手的問題,例如如何處理跨多個領域域的關鍵數據域(如客戶或產品)。有了這些問題令人滿意的答案,數據網格的實用性和有效性就有了信心。
可觀察性在克服數據網格挑戰中的作用
數據網格架構概念為數據行業帶來了令人興奮的機會和關注。一些個人和組織擔心與數據網格中自主性和民主化增加相關的潛在風險,特別是在數據發現、健康和管理方面。
然而,更仔細的研究表明,數據網格架構實際上通過強制要求可擴展和自助數據可觀察性來解決這些問題。數據可觀察性對于領域在數據網格框架內真正擁有其數據變得至關重要。這種自助功能包括各種功能和標準化,包括靜態和動態數據的數據加密、數據產品的版本控制、數據產品架構、數據產品發現和目錄注冊、數據治理和標準化、數據產品生產、監控和警報的數據沿襲、數據產品日志,以及衡量數據產品質量的指標。
當這些功能和標準化結合在一起時,就建立了一個健壯的可觀察性層。數據網格范式強調了單個領域處理數據可觀察性的標準化和可擴展方法的重要性,使團隊能夠解決關鍵問題,例如數據新鮮度、數據完整性、跟蹤模式更改以及理解上游和下游管道的依賴關系。
展望未來,數據網格將會繼續發展,數據網格的創始人Zhamak Dehghani宣布成立Nextdata公司在數據行業掀起了波瀾。這家初創公司旨在通過提供對數據產品內置信任的愉快體驗,增強數據開發人員、用戶和所有者的能力。
隨著數據網格趨勢的發展,必須在實現完全去中心化的數據網格方法和在其架構中納入卓越中心的元素之間找到平衡。為了探索對數據網格的進一步見解和觀點,可以深入研究Zhamak Dehghani、Sven Balnojan的《數據網格在行動》一書、Kevin Petrie的《數據網:重新思考數據集成》和Joe Gleinser的《你的應用程序應該考慮數據網連接嗎?》中的智慧和知識。
結論
數據網格為數據管理提出了一個有趣的概念,但在真正站穩腳跟之前,它面臨著巨大的挑戰。該行業需要解決領域所有權問題,定義更精確的參數,并找到將核心原則與技術相結合的方法。通過從過去的經驗中學習并提出棘手的問題,可以駕馭數據網格的復雜性,并確定其在數據管理策略中的可行性。
原文標題:The Great Data Mesh Debate: Will It Sink or Swim?,作者:Priya Kumari