IDC此前的數據顯示,2018年,全球數據量為33ZB,而在2025年,全球數據量將達到175ZB,這其中有80%都是非結構化數據。
宏觀的數據趨勢令人驚嘆,存儲廠商的反應更真實。
過去十年以來,國內的存儲廠商陸續浮出水面,大部分都是瞄準非結構化數據的市場機遇,以應對互聯網、大數據、物聯網、機器學習等技術帶來的數據浪潮。
從競爭的維度看,傳統經典的SAN塊存儲可以創新的空間越來越少,市場也被幾家老牌存儲廠商牢牢占據,而以對象存儲和文件存儲為代表的非結構化數據存儲,可創新的空間更大。
本文將結合青云存儲QingStor的產品線調整,了解國內市場在非結構化數據存儲技術和應用方面的創新。
對象存儲與文件存儲融合
青云科技在成立之初主要提供公有云服務,在存儲方面,主打的就是云上的對象存儲。伴隨 2014 年進軍私有云市場,青云同步布局本地存儲。
青云在2017年推出了QingStor NeonSAN塊存儲,2018年,青云又推出了文件存儲。至此,三大存儲類型一應俱全,青云憑借QingStor產品線成為了企業級存儲市場的專業玩家。
熟悉存儲市場的人都知道,Gartner有個分布式文件和對象存儲魔力象限,它是將文件和對象存儲擺在一起說的,這是因為,文件存儲和對象存儲的數據有一些相似之處,都屬于非結構化數據,用法相似,以至于很多人分不清楚兩者有什么根本性區別。
2022年,青云將對象存儲和文件存儲兩大產品線在產品層面上進行了一次融合,推出了一個叫QingStor U10000的非結構化存儲產品,光是看見這樣的名字就知道,它“很能存”!
青云科技存儲產品總監馮相東表示,此次融合后,將不再單獨售賣QingStor對象存儲或者QingStor文件存儲,而是只提供QingStor U10000。但用戶可以單獨購買QingStor U10000的對象存儲或者文件存儲服務的授權,可以只選其中一個,也可以同時選兩個。
從實際應用的角度看,這種調整似乎更符合用戶的實際需求,不僅能降低產品選型的難度,還能降低IT架構管理的復雜度。
如果企業想選購用于數據庫、虛擬化場景的存儲,對于性能有很高要求,那就選QingStor NeonSAN 塊存儲。NeonSAN的I/O時延可以控制在50微秒左右,3臺NeonSAN的節點能穩定輸出100 萬的 IOPS,QingStor NeonSAN支撐多家金融企業穩定運行Oracle RAC集群。
除此之外的存儲需求,包括影像數據、音視頻數據、數據湖、大數據、物聯網等場景都可以由U10000來滿足。
U10000并不是為了融合而融合,得益于堅持自研的策略,青云將對象存儲和文件存儲在產品層次上深度融合后,開發出了一些新特性,特別是多協議無損互通這一特性。有了它,U10000可以更好地滿足一些新興場景的需求。
U10000的融合帶來了什么?
QingStor U10000同時提供對象存儲(S3)、文件存儲(NFS/SMB)、大數據(HDFS)存儲接口,與一些方案不同的是,U10000能在不同協議之間實現數據無損訪問互通,而大部分存儲產品不支持這一點。
并且U10000通過統一的索引架構實現多協議無損互通,這點非常重要。
馮相東表示,多協議無損互通指的是,不需要通過格式轉化就能讓對象存儲存進來的數據,通過文件存儲方式來訪問,或者文件存儲存進來的數據可以通過對象存儲來訪問。存儲和讀取數據之間不需要經過格式轉化,這樣就避免了性能和語義的損失。
除此之外,多協議無損互通還可以提高數據分析的效率。
馮相東解釋稱,一份數據在一個業務場景下可能需要多次利用,如果沒有協議互通的話,就需要多次Copy數據。比如,在A業務空間處理完后,再拷貝到B存儲空間,用另一種存儲協議來訪問,不僅需要進行數據遷移,還會額外占用存儲空間。
據介紹,這種一份數據需要經過多個環節處理的場景越來越多,比如自動駕駛、基因測序等場景。
自動駕駛場景中,幾十輛路測車每天產生差不多1PB的路測數據,這些數據通常需要四個處理環節。
第一個環節是上傳和導入,通常需要用S3和NFS協議;第二個環節是數據預處理,主要用HDFS大數據分析相關技術;第三個環節是AI訓練,以NFS協議為主;第四個環節涉及仿真測試,主要以NFS和SMB協議為主。
自動駕駛的完整數據鏈的處理環節,需要一份數據通過不同的數據訪問協議來訪問,對接不同的計算框架,而協議互通明顯能提升數據分析的效率。
QingStor U10000作為一款分布式存儲,它具有所有分布式存儲必備的特征。比如:支持線性擴展。U10000最低3節點起步,隨著節點數量的增長,存儲容量和存儲集群的性能都會線性增長。
U10000的存儲效率比較高。通過可靈活配置的EC糾刪碼,能讓整個集群的物理磁盤可用空間達到90%以上,存儲效率對于U10000這種超大容量存儲來說,經濟意義特別大。
U10000的性能表現也不錯,在支持線性擴展和EC糾刪碼技術的基礎上,能為海量小文件提供高性能讀寫,單桶單目錄能支持百億級小文件存儲,并且能做到性能不衰減。
海量小文件的性能表現受到越來越多關注,比如,在機器學習場景中,就需要大量小文件,一些訓練需要幾億甚至十幾億的文件,存儲性能問題會嚴重影響訓練效率。
馮相東表示,U10000基于Rust語言編寫,在性能和安全性上有較大提升。
在數據安全性機制方面,數據層面采用的是多副本技術,而元數據則進行了強一致性處理,元數據和存儲數據進行了分層設計。此外,U10000還有多重訪問安全機制、智能預警機制。
在運維管理方面,提供了友好的可視化管理界面,可以更好地對存儲集群進行各種配置、操作和監控。
非結構數據存儲創新實踐
U10000 其實已經在非結構數據存儲場景上有不少創新實踐。
慈銘體檢醫療集團的體檢服務從預約階段到報告獲取都轉到了線上,體檢報告除了可以查看體檢數據,還可以查看健康態勢,背后依靠的是一套數據分析平臺。
青云幫助該醫療集團構建了業務承載平臺,使用了青云云易捷超融合平臺,存儲部分則是將數據與U10000對象存儲做對接后,實現了對PACS系統的影像數據進行實時調取和長期存儲,其中就用到了U10000協議互通的特性,實現了對象和文件互通,為AI醫療相關的創新應用提供了便利。
某智能駕駛科技公司,其自動駕駛研究業務的開展離不開高精度地圖,高精度地圖需要采集大量圖片和視頻數據,采集而來的數據需要經過多重處理,需要與各種數據分析和數據存儲平臺交互,在這種場景下,U10000協議互通的優勢也能得到充分發揮。
在早期,其所有業務都運行在公有云上,處于安全方面的考慮,開始構建私有化的集群,由于該公司的規模比較大,對于服務提供商的能力要求也很高,青云的方案基本解決其高精度地圖從數據采集、生產、訓練整個生命周期的存儲和算力需求。
蘇州華興源創是一家工業自動測試設備與整線系統解決方案提供商,主要測試產品用于LCD、柔性OLED、半導體、新能源汽車電子等行業的生產廠家,以及為行業提供定制化的數據融合軟件平臺。
華興源創的數據挑戰來自自有數據中心的中臺、上層工廠流程再造、供應鏈優化以及安全保障四個方面,涉及到上百套業務系統,有各種各樣類型的數據,業務平臺對存儲的需求也各不相同。
比如,關鍵業務數據需要有更多副本的存儲,對性能要求高的應用需要全閃存的存儲配置,數據增長快的應用需要擴展能力更強的存儲,而這些需求,絕大部分都由QingStor U10000來滿足,其余需求由NeonSAN塊存儲系統來滿足。
清華大學天津電子信息研究院是清華大學電子信息學科的 “產學研一體化”的成果轉化基地,其中的高端光電子芯片創新中心,從事芯片設計和開發方面工作,有許多EDA(電子設計自動化)設計需求,需要反復運算、驗證,所以,他們對于數據存儲系統的要求也很高。
EDA的前端設計階段會出現大量的隨機讀寫操作,后端設計階段需要大量順序讀寫操作,這對存儲系統的綜合能力要求很高,非常考驗分布式存儲架構的設計能力,實際上,U10000也能很好地滿足其需求。
結束語
當然,青云不純粹是一家存儲公司,它還有公有云、私有云、容器平臺、邊緣計算等各種方案,這些都決定了青云的存儲平臺不只是存儲,而是能對接各種算力平臺的,是一款經過驗證的存儲平臺。
正如青云產品技術解決方案總監張忠華所言,不能孤立地談存儲場景,而是要和多元化算力一起談,因為,如今的企業用戶越來越傾向于一個整體的方案,而不是組裝的方案。
換句話說,用戶可能并不關心存儲,而更關心一套方案能為自己帶來什么。而這,正是青云作為不純粹的存儲公司的優勢。