企業在大數據基建過程中,會遇到太多問題。
資產治理、數據服務、技術選型、安全合規、穩定可用…解決完一個,又冒出另一個。
與此同時,企業對數據基建的要求也越來越高,既要快速敏捷地響應業務需求,又要盡可能控制存算成本、提高利用率。
能否體系化地應對這些難題,進一步,能否在挑戰來臨前,就預先做好準備?
從奇點云過去600+客戶的數據云建設實踐中,我們發現,數據基建的挑戰并非“隨機刷怪”,而是有章可循。其中,以下7大場景最為常見,也最為典型:
傳統數倉升級;數據技術棧優化;數據中臺建設;數據資產治理;集團數據云服務;自主可控替代;數據安全合規。
我們將上述7大場景的常見痛點、關鍵問題及落地實踐必須關注的要點,寫入了《數據云場景指南》,伴您在數據基建進階路上“升級打怪”。
我們推薦這樣使用《數據云場景指南》:
從企業當下遇到的痛點或關注的問題出發,在索引頁找到目前所處的階段,進而針對性了解該場景應當關注的要點與解法。
需要注意的是,挑戰不會一成不變。企業的數據基建既不能“一蹴而就”,也無法“一勞永逸”。
因此,這本“攻略”不僅介紹了多個問題的解法,也提供體系化的思路,以便為下個階段做好準備,滿足進階的數據應用與未來的業務規劃需要。
篇幅有限,本文僅擇取每個場景的片段一覽,下載指南即可查閱詳情。
場景一:傳統數倉升級
以Teradata、Oracle等廠商為代表的傳統MPP(大規模并行處理,Massively Parallel Processing)數據倉庫,曾在眾多大中型企業的數字化轉型中發揮重要作用。而伴隨用數規模擴大、需求加深,企業對分析時效要求越來越高,數據量越來越龐大,傳統數倉在成本、靈活性、開放性均顯露出諸多不足。
在該場景,企業需分離OLTP(On-Line Transaction Processing, 聯 機 事 務 處 理)和OLAP(On-Line Analytical Processing,聯機分析處理),并由以Hadoop為代表的分布式大數據平臺來面向OLAP場景。
相較MPP數倉,分布式大數據平臺具備吞吐量大、擴展性和容錯性好、硬件成本相對低、可靈活處理多種類型數據等優勢。
場景二:數據技術棧優化
伴隨業務發展,數據分析需求日益復雜,數據平臺團隊開始面臨多云部署、多引擎調度等更復雜的底層技術難題。
以多引擎問題為例,目前沒有一個OLAP數據庫引擎能完美適配所有場景(測評詳見《OLAP數據庫引擎選型白皮書》),企業需要綜合業務需求、性能、維護成本等多種維度進行選型。隨之而來的,就是多引擎混合調度問題——在技術架構上,不推薦采用煙囪式建設,而應當同時確保引擎協調性(包括引擎間的任務調度和執行、數據傳輸和協作等)、數據一致性,以及資源利用最大化。
以下數據場景,往往對多引擎混合調度有高要求:
· 多樣化數據源及復雜數據處理:以制造業的實時生產監控為例,該場景數據量龐大,其中包括大量的機械設備傳感器數據,因此底層需要離線、實時及時序計算引擎做支撐,針對性處理多樣化數據源和不同的計算操作。
· 流批一體:依托多引擎混合調度能力,充分利用流處理引擎、批處理引擎的優勢,調度適當的引擎來執行任務,同時確保底層執行邏輯一致性、數據一致性,解決延遲、順序、資源協調等挑戰。
場景三:數據中臺建設
數據中臺建設或是大數據從業者們最為熟悉的場景。在這個階段,企業往往已完成業務IT化,在許多系統內沉淀了大量數據,但各成“數據孤島”,導致數據用不起來。
數據中臺的核心任務就是打造互聯互通的大數據平臺,以One-ID為核心,通過數據匯集、清洗、指標體系搭建等,沉淀數據資產。在統一的平臺基礎上,以需求驅動,培養數據應用能力,讓數據逐步成為企業決策的核心支持。
該場景下,底層平臺還必須關注穩定性,以規避因不可用、不可靠等問題造成的業務損失,確保數據價值持續產出。
場景四:數據資產治理
數據資產治理是每個企業想用好數據都繞不開的環節。我們需要進一步明確的是:
其一,如果沒有體系化地進行數據治理,缺少科學方法和架構支持,大數據平臺就無法持續高效地支撐業務需要,出現不得不為單一場景定制、計算周期長等各種問題;
其二,即便經過初階的治理,如果沒有形成合理的數據架構和運維體系,隨著業務迭代,數據資產管理仍會再次陷入混亂,導致資產無法有效復用。
在該場景,指南不僅介紹了數據治理方法論,也詳解了指標、標簽、算法模型、數據服務等資產的體系化建設與管理實踐,在建立規范的治理流程和標準的資產體系前提下,進一步為上層使用數據資產提供便利。
場景五:集團數據云服務
集團型企業由于多品牌、多業態、多主體等特征,對數據基礎設施的能力要求往往更為多元。例如,既要支持子品牌獨立發展,又要全集團統一管理;既要集團資源合理利用,又要主體之間安全隔離。
該場景下,企業的數據基礎設施必須具備“既隔離又統一”的平臺型數據管理能力,從而實現:既能滿足各業務單元的隔離需求,又能滿足集團全局分析需求;既能支持多云戰略,又能支持跨云統一調度;既能保障各系統獨立穩定的管理調度,也能統一存算資源,提高資源利用率。
*奇點云數據云平臺DataSimba提供跨云多域多租戶技術方案,支持通過創建新的Workspace(工作空間),來滿足企業業務擴張、快速復制數據生產域、開辟創新業務或安全合規隔離等要求。可查閱《數據云場景指南》,了解獨立生產域規劃的詳細流程。
場景六:自主可控替代
2019年,CDH社區版(免費版)宣布停止更新,因此無法再提供特性升級、bug修復等技術支持,還存在著較多安全漏洞;2022年,Teradata宣布將逐步結束在中國的直接運營,并進入中國公司關閉程序。
在政經形勢及數據安全合規的雙重要求下,尋找穩定可信的國產大數據產品已不僅僅是部分國央企的訴求,有越來越多企業主動考慮采用自主可控的國產替代。
該場景下,企業除了考察大數據產品的國產軟硬件互認證、環境適配測評結果,也要求廠商提供平滑遷移的方案,確保“替代”過程安全可控、業務影響最小化。
場景七:數據安全合規
企業作為數據(尤其是用戶數據)的收集者,有義務控制濫用和誤用數據等風險的發生;作為數據資產的持有者,也應采取必要措施,以預防并阻止違規操作、泄密、攻擊等事件,規避對企業數據資產保密性、完整性、可用性的損傷。
與數據資產治理類似,數據安全合規的治理與管理同樣需要持續進行。其中,數據安全的分類分級管理規范及實施是核心環節。
此外,指南提供了數據安全管理的7大基本原則、6項必備內容,供企業對照參考。