一直以來,從腦疾病的研究到大腦功能的解密,科學家從未停止過對大腦探索的步伐。在華中科技大學蘇州腦空間信息研究院,科學家們正在做一件對于腦科學研究具有里程碑意義的事情:繪制一張可能是世界上最復雜的“地圖”——靈長類全腦的三維圖譜。
以小鼠三維腦圖譜為例,科學家們通常先對小鼠進行腦成像:將鼠腦標本固定,用金剛刀從上至下、從左至右,將鼠腦標本順次切成1微米厚度的薄片,一邊切片一邊拍照,照片實時存儲到計算機系統之中。當鼠腦成像結束,腦科學家再根據這些二維照片合成三維腦圖譜。
一個小鼠全腦有超7000萬個神經元,繪制小鼠腦圖譜需要15380張圖片,未壓縮的數據量高達8TB。人腦的體積大約是小鼠腦的1500倍,擁有860億個神經元,人腦的三維圖譜數據量將會再提升幾個量級。現如今,單純的腦成像已經不成問題,但成像之后巨大的數據量如何存儲和分析成為當下腦科學等多個科研領域最為棘手的挑戰。
是什么阻礙了“腦洞大開”
華中科大蘇州腦空間信息研究院所遇到的情況是科研機構在新數據時代下的一個縮影。
一方面,得益于國家經濟實力的不斷提升,科學研究投入持續加大。根據《2019年全國科技經費投入統計公報》顯示,2019年全國研究與試驗發展經費首次突破2萬億元,達到22143.6億元,同比增長12.5%。
另一方面,數字化正在改變科研模式,過去相對薄弱的數字基礎設施開始面臨升級,亟需符合未來研發需求的新型基礎設施。正如發改委今年首次明確了新基建的范圍,將支撐科學研究等具有公益性質的重大科技、科教基礎設施劃分為創新基礎設施,屬于新基建未來重點投入方向。
“當前科研領域在存儲等基礎設施方面主要有容量、性能和穩定性三個典型挑戰。”華中科技大學計算機學院院長馮丹教授在浪潮云數智中國行武漢峰會上如是說。
華中科技大學計算機學院院長馮丹教授
與其他行業相比,數據在科研領域的生產要素屬性更加快速顯現??蒲袛祿哂袛祿芗头妒降奶攸c,具有數據量巨大的特征。以目前世界上靈敏度最高的射電望遠鏡中國天眼項目為例,每天產生約500TB的零級未壓縮數據,預計未來十年數據量將超過100PB,對長期運行產生的海量數據進行存儲與計算分析正在深刻改變其科研模式,如何存儲與保護這些海量數據就成為巨大挑戰。
此外,隨著海量數據的產生,科研機構通常希望能夠讓數據采集、處理和存儲的速度提升,以更好、更快支撐起科學研究。馮丹教授表示:“科研項目對于性能一直很關注。早年前,像新材料研發這些研究可能數據量不會很大,但對于后端存儲性能要求極高。現在,科研的數據量普遍很大,對于存儲性能的要求就更高了。”
例如,華中科大蘇州腦空間信息研究院存儲人腦三維圖譜數據,如果采用之前的成像系統,一臺系統至少需要花費20年時間才能完成數據的采集,這無疑是當前科研機構們所不能接受的,因此需要存儲具有分布式橫向擴展能力,提升其并發性能,讓數據的采集與分析更加快速,確保其研究項目的高效。
第三就是穩定和可靠,科研數據除了數據量之外,高質量與完整性也至關重要,因此對于存儲系統的穩定性和可靠性要求越來越高。存儲越穩定和可靠,意味著對高質量科研數據的存儲與完整就越有保障。
以清華大學RUSH腦成像研究項目為例,其對擁有1億神經元的小鼠大腦進行研究,28臺1200萬像素相機以每秒30幀、連續72小時的方式對小鼠進行拍攝,每天將產生2.7PB左右的數據,最后將這些圖片拼接成三維圖像序列,存儲系統需要滿足最長72小時拍攝過程中PB數據不丟幀。
事實上,在新數據時代加速到來的今天,包括科研領域的各行各業都在加快數字化的步伐,也直接驅動著存儲等基礎設施走向新的變革。
為數字化提速,存儲有哪些重要趨勢
當下,數據正在成為最重要的生產要素,是數字化轉型和智能化升級的基礎。年初的《關于構建更加完善的要素市場化配置體制機制的意見》報告中首次新增“數據”要素,并指出要發揮“數據”這一新型要素對其他要素效率的倍增作用,使數據成為推動經濟高質量發展的新動能。
這恰恰是新數據時代到來的體現。就像科研領域越來越重視數據一樣,各行各業都渴望充分利用數據的價值、為數字化提速,使得與數據密切打交道的存儲呈現出重要的新趨勢。“在數據呈現爆炸性增長的趨勢下,隨著算力的提升和數據的積累,大數據智能成為發展趨勢,也給存儲系統帶來一系列新變化。”馮丹教授直言。
馮丹教授介紹,存儲在PCM、3D NAND、3DXPoint等芯片器件上創新,將進一步帶動存儲設備、系統、架構和軟件的創新,“面向大數據的存儲首先是以數據為中心,圍繞數據做相應處理,其次是近數據處理,在離數據最近的地方做處理,減少數據傳輸帶來的性能損耗;第三則是實現存算一體化或存算融合,直接在存儲中進行處理。另外,智能相關技術也會加速融入到存儲系統之中,提升存儲系統性能、可管理性等。”
浪潮存儲
浪潮存儲作為近年來存儲市場上快速崛起的代表廠商,則認為未來存儲的發展理念是“云存智用 運籌新數據”,體現到存儲趨勢,可以提煉為三個字:云、閃、智。
首先是“云存”,即存儲需要與云進行全面對接。云計算已經走向普及,企業上云的趨勢不可阻擋,混合或者多云環境將會成為常態。無論是公有云還是私有云,存儲層實現對它們的對接,將極大有利于數據的流動。葉毓睿介紹:“存儲與私有云管理平臺的對接,有利于私有云管理平臺按需驅動存儲資源的創建、調整、優化甚至回收;而存儲與公有云對接,則有利于更好地使用公有云彈性的資源,讓數據流動起來。”
另外,存儲加速實現全閃化也是大勢所趨。借助于閃存介質成本的不斷下降、NVMe、RDMA等與閃存相關的技術逐漸走向成熟,閃存在存儲系統中的門檻愈發下降。隨著基于閃存介質的技術堆棧走向完善,全閃存存儲在性能、功能和容量三者之間有望實現“魚與熊掌可兼得”,有望在更多用戶中得到落地。
第三則是存儲快速邁向智能化。一方面,存儲自身會融入更多人工智能技術,根據業務負載、運維管理等數據特征,進行不斷的學習與優化,從而提供更加精準的預警信息和執行動作。馮丹教授也表示:“融入智能化是存儲的大勢所趨。例如,華中大在研究的主動對象存儲技術中,最主要體現的就是智能性,讓存儲系統并不是簡單的啞設備被動響應請求,而是會根據歷史負載預測未來趨勢,讓存儲系統可以感知應用需求,然后采用不同的策略更好地服務不同的應用。”
雙方共同探討存儲技術趨勢
另一方面,AI技術正在加速落地,但AI準備、訓練、推理和歸檔等各階段的IO特征不同,對于存儲需求也不同,將會進一步推動AI存儲產品加速到來。“例如,AI在模型訓練階段的IO特征為高帶寬、低延時和隨機小IO;而推理階段的IO特征是讀寫混合,要求存儲延時低,能夠快速響應。”葉毓睿補充道。
為“新數據時代”做好準備
IDC《2019年數據及存儲發展研究報告》中指出,新數據時代表現出的新數據特征:數據增長、企業對實時數據需求增加、多云部署模式成趨勢、多元和非結構化數據成為常態。從本質上來看,存儲需要為用戶在新數據時代下更好地存好、用好和調度好數據,為其數字化轉型和智能化升級提供支撐。
在眾多廠商中,浪潮存儲近年來已經成為市場中一股不可或缺的力量。根據IDC最新數據顯示,浪潮存儲在今年第二季度出貨量躍居中國第二,增長速度位列中國第一,并且增速遠超其他廠商。這背后是浪潮存儲致力于幫助用戶為“新數據時代”做好準備的戰略布局。
2020浪潮云數智中國行武漢站
浪潮存儲在戰略上提出了“云存智用,運籌新數據”的理念,打造存儲平臺戰略,重點發展分布式存儲和閃存存儲等新存儲,并致力于打造存儲七大極致能力,更好地幫助用戶在多元化、應用復雜化的數據全局中將數據存好、用好和調度好,更好地發揮出數據價值。
為更好地支撐起“云存智用,運籌新數據”理念,浪潮存儲在過去幾年投入了20億元巨資攻關存儲核心技術的突破,比如浪潮存儲幾年前開始布局閃存盤,其NVMe SSD已經在浪潮服務器中進行搭載售賣,接下來還會在集中式存儲和分布式存儲中搭載;另外,浪潮存儲在存儲架構上將致力于打造出融合分布式和集中式架構優勢的新存儲架構,以實現“一個數據中心,一套存儲”的愿景目標。
浪潮存儲短短幾年的飛速成長,同樣離不開強大人才體系的打造。浪潮存儲從過去幾十人的規模如今成長為上千人的團隊,其研發、市場、銷售人才體系不斷充實與壯大。此外,浪潮存儲還注重與華科大等高校、科研機構緊密合作,共同公關存儲多項核心技術的突破。
未來,隨著新基建的建設逐漸深入,千行百業必然會在數字基礎設施層迎來更大的變化,存儲作為新基建中的基石,其作用與價值將會得到進一步提升。浪潮存儲將持續以“云存智用 運籌新數據”賦能智算中心,在分布式存儲和全閃存儲兩大新存儲領域加速創新,釋放數據要素價值驅動行業數字化轉型。