10月21日,網易數字+大會在杭州錢塘江畔召開,網易數帆旗下網易有數在會上發布了全鏈路數據生產力平臺2.0,推出了DataOps、邏輯數據湖、實時數據湖引擎、機器學習平臺、有數BI數據準備在內的最新技術實踐,進一步完善數據治理能力,促進企業數智化轉型升級。
網易有數產品總經理余利華表示,邁入數據生產力平臺2.0階段,更應該夯實自身技術服務能力,從大數據底座、到數據中臺、再到數據應用,每個鏈路都需要更好的打磨才能服務好客戶,達成實際業務中“人人用數據、時時用數據”的目標,真正發揮數據生產力。
過去一年,全鏈路數據生產力1.0的提出,以數據中臺、數據應用為兩大節點,讓企業大數據決策水平提升實現正向閉環,將數據價值從業務系統中釋放。在1.0的實踐中,網易數帆發現,全鏈路數據生產力的閉環仍然存在一些阻滯,其中數據中臺的節點,各個系統數據的物理聚合成本越來越高,數據開發的低效拖慢交付應用,同時中臺對于實時數據的處理要求日趨增多;在數據應用的節點,非結構化數據的理解需要更多的手段支撐。
作為今年的重要看點,網易數帆是如何解決上述問題,實現全鏈路數據生產力從1.0到2.0的躍遷?這其中又有哪些創新技術的推出?
提升數據開發效率,試試有數DataOps
大會當天,網易數帆推出了今年數據中臺的重磅升級——有數DataOps,旨在幫助企業解決數據開發過程中的效率和質量問題,可以說是將DevOps的理念應用于數據開發領域,以縮短洞察周期,推動項目持續集成(CI)和持續部署(CD)。
DataOps全流程
大會現場,余利華還展示了網易云音樂使用DataOps成功實踐。通過設置獨立的開發環境、自動測試流程,云音樂可以有效排查上線前代碼中存在的風險,實現自動運行測試。從效果上看,在使用有數DataOps產品后,因代碼提交產生的數據質量問題下降了接近90%,平均需求交付周期從5天下降到2.5天,效率直接提升100%。
邏輯數據湖:從“Collect”到“Connect”
企業建設數據中臺不應該是把所有的數據全部收集(Collect)到一個載體后再開始應用,隨著數據的不斷涌入,用一種連接(Connect)的方式重復利用數據,成為了當下技術領先廠商們思考的手段。
余利華指出,數據中臺建設之初,往往誤以為只要把數據集中到一起,就能讓數據充分被利用。但在這些年與客戶交流后發現,企業想要構建一個物理上集中的數據中臺非常困難。那么能否通過一種方式,在不要求數據遷移的前提下,將數據納入數據中臺管理?
大會現場,網易數帆發布了首創的,基于邏輯數據湖的數據中臺。作為一種物理分散,邏輯統一的數據中臺,其核心價值就是統一源數據信息、數據標準和數據源,同時兼容遺留系統,支持Oracle/MySQL/Vertica等7類系統,實現數據的統一開發和統一治理。
基于邏輯數據湖的數據中臺
邁入實時中臺時代,Arctic引擎驅動力
面對日益增長的數據規模以及越來越低時延的數據處理要求,流處理正在成為大數據廠商亟待精進的業務能力之一。企業對于實時數據的管理需求日益顯著,特別是對于像廣告、風控、促銷、物流等業務場景,只有依賴強大的流計算引擎才能支持實時動態的數據結果。
為了解決這些問題,網易數帆推出了有數實時數據湖引擎Arctic,不僅實現了流批一體存儲,還支持無縫對接數據中臺數據治理體系,可以說是極大地增強了數據攝取性能,特別是對于海量日志、事件等變更頻繁、實時性高的數據加工等業務場景,有著十分廣闊的技術實踐空間。
此外,搭載數據湖引擎Arctic,網易數帆“有數實時數據中臺”更是成功入選多個國家級大數據標桿示范項目評選,包括像今年中國大數據產業博覽會“十佳大數據案例”,工信部試點示范項目等等。
有數機器學習平臺:AI深化數據應用
隨著物聯網和移動設備的發展,產生的數據越來越多,種類也包括圖片、文本、視頻等非結構化數據,這使得機器學習模型可以獲得越來越多的數據。在全鏈路的數據應用節點上,網易數帆也分享了自己多年的實戰經驗,推出了有數機器學習平臺,去幫助企業理解及處理各類數據。
本次推出的網易有數機器學習平臺,經過網易多年內部業務驗證,能夠大幅提升機器學習迭代效率。在機器學習的各個階段都能提供有效支持,通過無縫對接數據中臺,使得數據訪問變得非常簡單。同時還提供Notebook和可視化建模兩種方式,支持TensorFlow,PyTorch主流算法框架,一鍵部署等等。
除了以上技術亮點,大會還發布了有數BI數據準備,針對缺乏專業人員的小微企業來說,可以借助有數BI數據準備,建立自助式ETL實現輕量級湖倉。
本次全鏈路數據生產力平臺2.0的發布,標志著網易數帆數據能力的全面提升,最終目的還是通過技術手段去解決企業實際業務中暴露的難點,提升數據價值的有效利用。