構(gòu)建高性能計算HPC(High Performance Computing)集群可提升業(yè)務(wù)的運(yùn)算速度(使其達(dá)到每秒萬億次級的計算速度),因此HPC被應(yīng)用于解決大規(guī)模科學(xué)問題的計算和海量數(shù)據(jù)的處理,其中就包括科學(xué)研究、氣象預(yù)報、計算模擬、軍事研究、生物制藥、基因測序等。為保障文件、對象、大數(shù)據(jù)等多種格式數(shù)據(jù),在HPC場景下,進(jìn)行統(tǒng)一存儲性能的高要求,這無疑是對傳統(tǒng)數(shù)據(jù)存儲方式發(fā)起了存儲重構(gòu)挑戰(zhàn)。
目前HPC應(yīng)用正從過去的傳統(tǒng)科研領(lǐng)域計算密集型,逐漸向新興的大數(shù)據(jù)、人工智能以及深度學(xué)習(xí)等方向進(jìn)行融合和演進(jìn)。繼而,數(shù)字時代無論是智能制造、智慧醫(yī)療、智慧城市、智能家居,HPC都將成為核心技術(shù)。特別是近兩年備受關(guān)注的人工智能領(lǐng)域,如自動駕駛汽車、無人機(jī)、人臉識別、醫(yī)療診斷以及金融分析和商業(yè)決策等,其核心是大數(shù)據(jù)支持,HPC成為人工智能模型訓(xùn)練的重要支撐平臺。
HPC通過極快的處理速度,獲取大量數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算,實(shí)現(xiàn)數(shù)據(jù)即時分析,達(dá)到快速決策的目標(biāo)。因此,HPC集群對于存儲有著較高的性能要求,保證來自多個HPC服務(wù)器密集而多樣的分析行為。
同時,由于未分析的原始數(shù)據(jù)會越積越多,并且未來還會有更多的數(shù)據(jù)需要研究/處理,因此容量和擴(kuò)展性也是重要的考慮因素。HPC的總體數(shù)據(jù)最終會達(dá)到PB級別,需要超大的存儲容量才能完成歸檔。
在多樣化的HPC場景下,日均產(chǎn)生的三維數(shù)據(jù)可達(dá)幾百TB甚至PB級,因此,對存儲性能有著更高的要求。在海量數(shù)據(jù)的處理過程中,一次數(shù)據(jù)處理需要經(jīng)過文件、對象、大數(shù)據(jù)等多種格式的數(shù)據(jù)處理,這無疑是對傳統(tǒng)數(shù)據(jù)存儲方式發(fā)起了巨大的重構(gòu)挑戰(zhàn)。就“自動駕駛”、“石油勘探”場景為例,數(shù)據(jù)采集的原始數(shù)據(jù)是NFS格式,需要先轉(zhuǎn)換為HDFS格式,才能利用大數(shù)據(jù)系統(tǒng)對數(shù)據(jù)進(jìn)行預(yù)處理,最終將數(shù)據(jù)轉(zhuǎn)換為NFS格式導(dǎo)入進(jìn)人工智能訓(xùn)練集群及演練仿真集群 ,對數(shù)據(jù)進(jìn)行深度挖掘,進(jìn)一步調(diào)整自動駕駛策略。
在整個數(shù)據(jù)處理閉環(huán)中,數(shù)據(jù)轉(zhuǎn)換格式的時間占全過程的35%以上,如何提升多樣性格式數(shù)據(jù)的處理效率,逐漸成為存儲領(lǐng)域新型技術(shù)的主流趨勢。傳統(tǒng)存儲廠商仍通過共享硬件資源池,在一套硬件集群上劃分出多了獨(dú)立的邏輯資源池,分別部署對象、塊、文件系統(tǒng)的存儲池,實(shí)現(xiàn)硬件集群多樣化格式的共享存儲。但在該資源池中,每一個邏輯資源池僅僅只會支持一種訪問協(xié)議,對于跨協(xié)議訪問時,仍需要先行拷貝原格式的原始數(shù)據(jù),再將其進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,實(shí)現(xiàn)不同格式之間的數(shù)據(jù)相互轉(zhuǎn)換及交互。
在數(shù)據(jù)處理的過程中,數(shù)據(jù)拷貝產(chǎn)生的冗余副本不僅占用數(shù)據(jù)的存儲空間,同時在數(shù)據(jù)格式轉(zhuǎn)化的過程中,將會產(chǎn)生大量的數(shù)據(jù)丟失。因此,傳統(tǒng)的共享硬件資源池,僅能提高硬件資源的利用率,無法滿足格式差異化要求及數(shù)據(jù)處理效率,以滿足日均PB級的數(shù)據(jù)存儲需求。
? 共享硬件資源池,存儲多個邏輯資源池
? 頻繁跨協(xié)議訪問,無法滿足數(shù)據(jù)格式差異化處理效率
? 產(chǎn)生的冗余副本占用大量的存儲空間
? 語義翻譯過程中,存在數(shù)據(jù)丟失
柏科數(shù)據(jù)ISCloud分布式存儲可采用多種協(xié)議互通技術(shù),重構(gòu)底層邏輯架構(gòu),部署統(tǒng)一的增值服務(wù),語義抽象層,對多格式的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一管理,實(shí)現(xiàn)真正意義上的協(xié)議互通特性,來解決HPC場景下數(shù)據(jù)結(jié)構(gòu)多樣化的處理效率,滿足日均PB級的數(shù)據(jù)存儲需求。
? 提供統(tǒng)一的原生語義,保障語義無損
柏科數(shù)據(jù)ISCloud分布式存儲采用多種協(xié)議互通技術(shù),在設(shè)計的過程中進(jìn)一步重構(gòu)底層邏輯架構(gòu),部署語義抽象層,面對多樣化結(jié)構(gòu)數(shù)據(jù)提供適合文件、對象、塊及大數(shù)據(jù)的原生語義。通過原生的語義層可進(jìn)一步簡化格式處理流程,打通語法上的缺失和限制。在頻繁跨協(xié)議訪問場景下,在底層的語義層直接對原數(shù)據(jù)進(jìn)行格式預(yù)處理,滿足PB級數(shù)據(jù)格式差異化處理效率。
? 實(shí)現(xiàn)真正意義上的資源空間利用及性能保障
在柏科數(shù)據(jù)ISCloud分布式存儲中,通過部署原生的語義層可進(jìn)一步簡化格式處理流程,去除原傳統(tǒng)的共享硬件資源池中,數(shù)據(jù)拷貝產(chǎn)生的冗余副本,在底層邏輯上對原多樣化格式數(shù)據(jù)處理。將原本復(fù)雜的多樣化格式轉(zhuǎn)化流程,簡化成與單一協(xié)議完全一樣的數(shù)據(jù)訪問路徑,實(shí)現(xiàn)不同格式之間的數(shù)據(jù)相互轉(zhuǎn)換及交互,實(shí)現(xiàn)真正意義上的資源空間利用及性能保障。