數據作為一項重要資產,已經成為企業的共識,為了更好地存儲數據、挖掘數據,企業需要:
· 一個超級大的存儲庫,對數據進行長期的原樣的存儲;
· 能夠對這些數據高效地管理與集中治理;
· 需要強大的計算能力滿足數據處理需求。
假設有這樣一種解決方案:在一種技術的支持下,企業在快速實現企業中各類的數據集成的同時,也能輕松獲取企業外部數據,打通產業鏈上下游數據,實現生態化數據整合,實現全貌數據分析。同時,數據存儲量大,支持批量歷史數據和實時流數據的處理,能夠實現數據的快速查詢和高級分析。
這樣的解決方案,你是否會心動?
其實,這個方案,通過數據湖就能實現。
一、什么是數據湖?
數據湖概念的提出,最早是在2010年,由Pentaho的創始人兼CTO詹姆斯·狄克遜(James Dixon)在紐約Hadoop World大會上提出的,就在當時,發布了如今被大數據界廣泛使用的開源框架Hadoop的第一個版本。
近兩年,隨著大數據、云計算等技術的發展與成熟,數據湖再次被人們提起,人們對原始數據的分析、非結構化數據的分析的應用也越來越多,數據湖開始走向企業的實際應用中。
維基百科對數據湖的定義:數據湖是一個以原始格式(通常是對象塊或文件)存儲數據的系統或存儲庫。數據湖通常是所有企業數據的單一存儲,用于報告、可視化、高級分析和機器學習等任務。數據湖可以包括來自關系數據庫的結構化數據(行和列)、半結構化數據(CSV、日志、XML、JSON)、非結構化數據(電子郵件、文檔、pdf)和二進制數據(圖像、音頻、視頻)。
根據網上資料,有一張數據湖的參考架構:
從架構上來看,數據湖的主要特征有:
- 數據接入:數據湖提供各種類型數據的接入,包括數據庫中的表、各種格式的文件、數據流、ETL工具轉換后的數據、應用API獲取的數據等等,并自動生成元數據信息。
- 數據存儲:數據湖存儲的數據量大、來源多,并且是以原始格式存儲,不同于數據倉庫的結構化存儲方式,數據湖以自然格式存儲數據。
- 數據處理:支持數據的驗證、清洗、聚合、權限管理以及數據安全等。
- 數據應用:除了BI、報表分析、可視化分析、高級分析外,也適用于機器學習。
數據湖本質上是一套先進的企業數據架構。
2、數據湖和數據倉庫有什么區別呢?
在這里,我們拿數據湖和熟知的數據倉庫進行對比,方便大家對數據湖進一步理解。
通過對比,我們可以看到數據湖相比于數據倉庫,不僅在數據源上更豐富,數據也不需要提前進行定義,在準備使用數據時再定義即可,這提高了數據的靈活性與可擴展性。
數據湖在未來的使用中應用范圍更廣,使用場景也從批處理、BI擴展到機器學習、高級分析。
三、數據湖能夠給企業帶來哪些價值?
通過對數據的分析與應用成功創造商業價值的企業,將會在數字化浪潮下越走越遠。數據湖的核心價值是為企業帶來了數據平臺化運營機制,真正幫助企業實現技術轉型,應對快速發展的商業環境下層出不窮的新問題。據Aberdeen 的一項調查顯示,實施數據湖的組織比同類公司在有機收入增長方面高出 9%。
數據湖對企業的價值主要體現在:
1、保存原始數據,企業數據保真
數據倉庫保存的數據都是結構化處理后的數據,而非原始數據,且無用數據不會被納入。但是目前看來"無用"的數據是否真的沒有用處呢?其他格式的數據是否沒有價值?有用無用依賴的是我們業務人員的經驗來判斷的,這明顯不符合大數據的原則,而數據湖能夠保存原始數據,同時過程數據會不斷的完善、演化,以滿足業務的需要,保證用戶能獲取到各個階段的數據。
2、打破數據孤島,實現數據互通
有的企業先后上線了ERP系統、CRM系統、OA系統等,企業的數據分別存儲在這些系統中,數據之間互不相通,而數據湖可以容納所有系統的數據,同時也能夠充分利用企業外部數據,打破數據孤島,整合企業全貌數據。
3、支持實時數據,提高運營效率
物聯網 (IoT) 引入了更多方式來收集有關制造等流程的數據,包括來自互聯網連接設備的實時數據。數據湖支持對實時和高速數據流執行 ETL 功能,并對機器生成的 IoT 數據進行分析,從而能夠協助企業發現降低運營成本、提高運營效率的方法。
4、實現數據挖掘,驅動價值增長
數據湖統一管理所有數據,通過數據湖能夠輕松實現對數據的搜索、查詢、計算和訪問,結合機器學習和深度學習能夠為企業構建更多優化后的運營模型,進行數據挖掘和數據分析。數據湖還會跟蹤和確認數據血統,這有助于確保數據值得信任,還會快速生成可用于數據驅動決策的 BI,提供企業級數據服務,驅動企業的價值增長。
5、靈活可拓展,支持敏捷開發
由于數據湖采用的是分布式架構部署,具有很高的拓展性。相比于傳統集中存儲式,數據湖具有更高的靈活性和敏捷性,當需要修改或增添新單元時,無需對數據湖進行大規模改變,能夠在段時間內(如幾天或幾周)實現。
四、數據湖的發展前景
目前,數據湖與云計算技術的融合成為一種趨勢,由于數據湖的特性與優勢,數據湖在企業數據存儲、處理和分析上將扮演更重要的角色。
一方面,云計算具有高效的運算能力,在原有服務器基礎上增加云計算功能能夠使計算速度迅速提高,為企業帶來了更多的管理便捷性;
另一方面,云計算采用虛擬化、多租戶等技術,將資源放在虛擬資源池中統一管理,在一定程度上優化了物理資源,用戶不再需要昂貴、存儲空間大的主機,降低企業對IT基礎設施的成本,為企業帶來了巨大的經濟性。
數據湖+云計算,兩大技術融合使用,將大數據計算部署在云上,把存儲資源與計算資源獨立開來,實現計算和數據各自獨立擴展,彈性伸縮。
當前,數據湖架構已經在公有云上得到了較完美的實現和應用,企業上云已經成為一種發展趨勢,將會有越來越多的企業通過上云服務來提升自己的競爭力。
數鑰分析云(Saas版)即將上線,更好地為企業提供一站式大數據解決方案,敬請期待!
文章作者:分析云
文章小編:曹瑞
報表工具:數鑰分析云
分析云能提供面向企業業務場景的一站式大數據分析解決方案,基于大數據、移動互聯網、人工智能等先進技術,全面支撐企業業務創新,隨時隨地透視經營,輔助企業科學決策,加速企業數據化轉型升級,助力企業進行精準營銷、戰略管控、風險預警等。