數據湖的發展契機,來源于近年來的AI熱潮和云計算、5G的發展,在日益發展的海量數據時代,數據已成為企業發展的核心資產,通過構建適用于大數據的底層架構,圍繞Hadoop提供語義一致性、數據治理和安全性。
Hadoop作為數據湖最常用的解決方案之一,其的部署和需求仍然很大并且正在增長。在最近的一項涉及235名受訪者的調查中,34%的受訪者目前正在使用Hadoop進行數據和分析工作,另有55%的受訪者計劃在未來24個月內采取同樣方案,總計需求量達到89%(Gartner,2016)。
在Hadoop大數據平臺方案中,當存儲空間或計算資源不足時,只能同時對兩者進行擴容,將導致額外成本的增加。假設用戶對存儲資源的需求遠大于對計算資源的需求,那么同時擴容計算和存儲后,新擴容的計算資源就被浪費了,反之,存儲資源被浪費。獨立擴展計算或存儲的架構設計,被認為是更加靈活的擴容方式。
因此,業內新擴容方式“存算分離”架構的優勢逐漸明顯,“存算分離”成了大數據架構發展的必然趨勢,成了解決行業用戶在使用Hadoop時,面臨計算資源浪費、存儲性能低、管理成本過高等痛點的利器。最初在Hadoop1.0時代,計算和存儲是高度融合的,僅能處理單一的MapReduce分析業務;如今已經到了Hadoop3.0時代,計算存儲走向分離,通過Hadoop架構策略,優化了冷熱數據的存儲。打造了更適合企業級市場,資源云化和靈活擴展,能夠讓用戶享受更專業的存儲,更佳的可靠性和利用率。
ISCloud分布式存儲系統面向海量數據場景,針對大數據Apache Hadoop等應用場景,提供原生接口,將原生Hadoop集群從當前計算、存儲一體化狀態,拆分成計算和存儲兩個獨立集群,實現“存算分離”形式,充分吸納計算、存儲兩個產業的最終成果,加速釋放數據價值。
• 提供標準接口,實現智能化負載均衡
非結構化的原始數據可以通過Sqoop、DistCp等工具直接存儲在ISCloud分布式存儲上,業務數據庫結構化數據和應用數據可以通過Spark、Kafka等HBase分布式數據倉及Hadoop大數據Hive倉庫內。HBase表數據和Hive內部表數據仍然通過HDFS來存儲。ISCloud分布式存儲在存儲海量非結構化數據,甚至是海量小文件的同時,減輕HBase及Hive的壓力,為后續擴容單一屬性集群提供基礎。
? 協議互通特性,提高數據分析效率
ISCloud分布式存儲采用多種協議互通技術,部署語義抽象層,面對多樣化結構數據提供適合文件、對象、塊及大數據的原生語義,為Apache Hadoop計算層提供了標準的Hadoop文件系統API,支持文件、大數據接口訪問,免數據遷移,縮短分析路徑。實現多集群數據融合互通,提升數據共享和分析效率。
• 降本增效,大幅降低TCO
隨著大數據應用的全面普及,存算分離已成為企業大數據平臺建設的首選。采用全對稱分布式NameNode,集群性能和支持文件數隨節點數目增加,單一命名空間支持文件數達百億級。計算存儲分離,按需擴展,實現精準投資。