近日,奇點云的數據云全系產品發布新一季更新。本文著重分享數據存算引擎DataKun、數據安全引擎DataBlack、指標工廠SimbaMetric、標簽工廠SimbaTag的最新進展。
摘要:
· 數據存算引擎DataKunR2.0發布,在安全穩定、智能運維、自主可控等層面均有優化,實現360°可觀測。
· 數據安全引擎DataBlackR2.0發布,成為獨立版本,支持全域數據安全,內置開箱即用的行業模板,更有“冠軍算法”加持。
· SimbaMetric(指標工廠)、SimbaTag(標簽工廠)成為獨立版本,可搭載于企業現有數據平臺之上,為標簽管理、指標管理提效。
DataKun R2.0
智能運維,自主可控
數據存算引擎DataKun,提供企業級的大數據集群智能運維能力。延續“安全穩定”、“智能運維”、“云原生”、“自主可控”四大特性,DataKun R2.0持續優化進階:
360°可觀測,告別傳統人肉運維
圍繞大數據運維全生命周期,DataKun從系統層、服務層、業務層實現360°可觀測,并通過智能運維模型,自動化監測、分析和優化系統行為,改變了傳統“人肉運維”的方式。
R2.0相關升級主要體現在以下三個方面:
1.“健康檢查”
DataKun“健康檢查”功能,通過一系列檢查及驗證,幫助運維工程師及時發現常見的配置問題,更新系統參數,減少由于錯誤配置引起的潛在故障和性能問題。
本次更新完善了檢查與更新NTP的設置,以確保時間同步;完善了檢查與優化磁盤的設置,以確保存儲性能更優。
2.“Service Advisor”
“Service Advisor”(服務顧問)功能,旨在通過分析集群組件的配置和狀態,檢查可能存在的問題,并提供優化建議。例如,按照集群規模,動態推薦各組件的CPU和內存值,幫助用戶改善集群的性能和資源利用率,解決Container并發度不足導致任務運行排隊嚴重、效率太低等問題。
本次更新中,Service Advisor基于過往服務客戶的最佳實踐,優化了HDFS、Ranger、HBase、ClickHouse等組件的配置推薦算法。
3.“集群監控”
“集群監控”功能相當于大數據集群的“天眼”。DataKun R2.0迭代了基礎監控數據指標體系,建設了完善的監控看板與易用的診斷工具,覆蓋系統、服務、業務三個層面,幫助及時發現硬件故障、資源瓶頸、任務執行異常等問題。
全量壓測,安全穩定
作為數據存算引擎,DataKun需確保長期運行過程中,始終具備高可用、高性能,且滿足安全、穩定、合規的要求。
1.核心組件全量壓測,充分保障穩定
本輪更新,DataKun的核心組件完成全量壓測,包括YARN、HDFS、Hive、Spark等在內的所有核心組件穩定性及性能均得到了充分驗證。
結合壓測結果數據,我們進一步對組件進行配置調優,提升了集群的整體吞吐能力。
2、持續關注開源組件安全,第一時間修復相關漏洞
DataKun持續關注開源社區動態,及時更新并進行專業的兼容性驗證測試,以規避因開源組件漏洞而造成的拒絕服務攻擊、遠程代碼執行及安全繞過等問題。
本輪迭代,截至2023年6月Hadoop和Hive中發現的高危漏洞,均已在DataKun R2.0修復完畢。
自主可控,增加國內研發軟硬件環境適配
DataKun持續適配國內研發軟硬件環境,R2.0現已支持兼容KunPeng(ARM架構)Kylin V10、X86 Kylin V10。
此外,DataKun R2.0提供更成熟、標準化的配套遷移服務,支持從CDH及云上EMR遷移至DataKun,進一步保障企業客戶自主可控。
DataBlack R2.0
獨立版本,支持全域數據安全
數據安全引擎DataBlack以數據為中心,具備敏感數據自動化發現、數據脫敏和加密、權限管理、風險識別和監控、數據審計等五大核心功能,助力客戶完成企業級的數據全生命周期安全管控及保護。
DataBlack R2.0帶來以下關鍵更新:
獨立版本,支持全域全場景數據安全
自R2.0起,DataBlack正式作為獨立產品單獨售賣(而不再只作為數據云平臺DataSimba的增購項)。
“自立門戶”的DataBlack不僅能保障數據云平臺DataSimba、數據存算引擎DataKun內的數據資產安全,也支持對接分析云(例如CDP、UBA)等多類數據應用產品,提供一站式的數據安全管理能力,幫助企業高效滿足《個人信息保護法》《數據安全法》《網絡安全法》等安全合規要求。
DataBlack R2.0產品架構升級,獨立支持全域數據安全
以增長分析(UBA)為例,利用DataBlack完成敏感數據識別后,企業用戶可以對UBA內Event、User、Item三張表中存在安全風險的敏感信息進行統一管理,也可以下載風險明細,滿足審計要求。
面對數據應用日益多樣而安全合規缺失的現狀,企業的數據安全管理部門可以借助DataBlack,對全域數據采取一致的數據安全策略與流程應用,給用戶授予對應應用的安全角色、配置安全能力,從而真正提高數據安全管控效率。
內置行業模板,開箱即用
根據各行業規范要求和業務特性,DataBlack R2.0內置了數據安全分類分級行業模版,開箱即用,幫助企業高效管理敏感數據,自動生成分級分類全景圖。
目前,內置模板包括以下三類:
1.分類分級標準模板:基于《個人信息保護法》等國家安全法律法規,內置37類敏感數據類別及對應的敏感級別,幫助企業快速完成敏感數據分類、查詢狀態。
2.金融數據安全分類分級模板:依據《金融數據安全 數據安全分級指南》(JR/T 0197—2020),側重個人金融信息保護和金融重要數據保護。
3.智聯網汽車數據分類分級模板:依據“數據安全推進計劃”出臺的《智能網聯汽車數據分類分級指南》,側重智能網聯汽車的個人敏感信息和汽車重要數據保護。
“冠軍算法”加持智能安全
曾斬獲全國數據安全賽事冠軍的“異常攻擊事件檢測模型”現已融入DataBlack R2.0!
“異常攻擊事件檢測模型”是一種兼顧“攻擊事件分類識別”和“基線行為預測”的多任務深度學習模型,不僅能檢測攻擊事件發生的時間段、攻擊事件類型,還能解析攻擊事件的獨特表現。
通過該模型所屬的“風險智能識別”功能,企業可以監控對應平臺內用戶的操作行為,自動化檢測異常操作,識別離職員工賬號違規使用、員工下載敏感數據導致泄露、低權限賬號訪問敏感重要數據等安全風險問題。
SimbaMetric R2.0
指標管理與開發的效率工具
SimbaMetric(指標工廠)是針對指標統一管理與開發的效率工具,為企業提供一套完整的指標管理與開發體系。
具體而言,SimbaMetric能全面滿足指標的業務需求、技術需求以及管理需求,提供指標從“提出”、“定義”、“設計”、“開發”、“使用”、“修改”到“下線”等全生命周期的管理功能,為經營分析、風險管理、領導決策等提供管理規范、指標統一、數據易用的產品功能保障。
作為Simba Toolkits(數據服務工具箱)中的一員,SimbaMetric現已進階為獨立版本,不僅支持搭配數據云平臺DataSimba增購,也支持單獨購買,滿足更多客戶所需。
SimbaMetric R2.0的能力包括:
1、嚴謹的分層分域設計,更清晰。在指標開發的過程中,SimbaMetric支持用戶嚴格遵循數倉分層分域的架構設計,讓數據結構清晰化、條理化,減少指標的重復開發。
2、指標建模的方式讓指標業務更“落地”。SimbaMetric以“統計粒度+派生指標”形成邏輯表的業務維度和度量字段,使得維度建模的過程與業務緊密結合。例如,渠道維度的訂單分析數據,應圍繞“渠道”的統計粒度和“訂單”相關的派生指標進行開發。
3、管理數據標準,更強調應用數據標準。在數據治理的場景中,SimbaMetric基于數據標準場景實現了對數據規范的管理,如標準的定義、標準值的定義和條件約束,并通過這套規范執行、檢測、維護數據的標準化。
4、豐富的行業模板庫,一鍵引用。我們將眾多行業的實踐經驗沉淀至高級版模板庫功能中,可以在項目中一鍵引用行業模板并創建,包括但不限于泛零售行業的詞根、數據標準、主題域、業務過程等等多個模板。
SimbaTag R2.0
標簽開發與管理分析的效率工具
與SimbaMetric同期“獨立”的,還有SimbaTag(標簽工廠)。
SimbaTag是面向業務標簽開發、管理、分析的生產力工具型應用。
聚焦大數據治理環節中高頻的標簽開發場景,SimbaTag提煉OEET方法論(Object對象-Entity實體-Event事件-Tag標簽),可完成標簽體系從業務定義到數據模型構建、標簽開發的落地全過程,并針對形成的標簽資產進行統一的資產管理,提供數據服務API及數據訂閱服務。
下游業務系統(例如CDP,客戶數據平臺)可通過調用SimbaTag提供的Open API接口,靈活調整標簽開發模板,迭代衍生標簽,沉淀出新的標簽資產,形成“標簽生產-管理-服務-回流”的標簽運營生態。
與此前的版本相比,SimbaTag R2.0有以下產品優勢:
操作配置可視化:可拖拽式構建對象寬表模型,并將字段批量配置為對象屬性;
輸出表結構穩定:標簽輸出表采用高表結構,便于下游系統查詢及調用;
標簽管理接口開放:支持下游系統調用OpenAPI接口進行標簽克隆,快速生成衍生標簽。
寫在最后:為什么選擇讓它們“自立門戶”?
繼數據存算引擎DataKun后,數據安全引擎DataBlack、指標工廠SimbaMetric、標簽工廠SimbaTag陸續升級為獨立版本。
也就是說,上述產品可以單獨售賣,而不再只作為數據云平臺DataSimba的增購項。已有數倉/數據平臺的企業可以根據自身的技術棧規劃,按需選購。
相較搭配購買,單獨購買獨立版本往往更為“輕量”,組合更為靈活。而實踐過后,有許多企業會發現各類數據產品工具自成一套,組裝時不得不重復建設,架構變得冗雜。
因此,與市面上產品不同的是,上述產品的獨立版本均內置了Simba OS(數據云操作系統內核),負責對DataBlack、SimbaMetric、SimbaTag等產品提供數據的存算、權限體系等標準能力。
Simba OS采用對象體系的設計,因此上述產品的獨立版本均可繼承對象的屬性和行為,例如繼承“支持60多種數據源”、“具備完善的監控告警運維能力”等。在保持輕量、靈活等優勢的同時,無需為多引擎、多依賴、多云、海量多源異構數據等帶來的復雜性以及多產品體系打通等問題操心。
期待成為您的理想選擇!