“這就是課題組的全部研究成果。”科學家打開他的抽屜,里面塞滿了移動硬盤,這讓徐姚晨很是驚訝。將數據中心藏在抽屜里,顯然存在安全風險,至少應該進行異地備份,而且如此“分散堆放”的存儲介質,也不利于后續在線的研究分析。
從抽屜里的數據中心開始
這是15年前的“故事”,徐姚晨現任中科院分子細胞科學卓越創新中心信息建設與運維部主管,他所在的研究所更是大有來頭。中科院生化與細胞所是中國生命科學領域,最具科研實力、最具影響力的國立研究機構之一,曾經成功破解牛胰島素拆分、合成的科學難題,這也可能是新中國成立后,最早接近諾獎的一項研究成果。
回到文章開篇所述,“抽屜里的數據中心”確實已經稍顯原始。雖然55年前,中國的前輩科學家僅依靠分液漏斗、三頸反應瓶,就可人工合成牛胰島素,但現在“抽屜里的數據中心”,顯然在制約后輩科學家的工作效率。
“2006年,上海生命科學研究院(2016年,上海生命科學研究院從中科院生化與細胞所獨立)建立了第一套300GB的存儲系統,這已經是當時生命科學領域,較先進的存儲系統。”徐姚晨回憶當時的起步略有感慨。現在來看,300GB的存儲容量確實小了一些,主流筆記本的硬盤配置也不只如此,甚至1TB移動硬盤的價格,還不到300元,但300GB的存儲就是研究所“平臺思維”的開始。
一花一世界
“目前,研究所數據中心的容量已經達到10PB,而且幾乎全部采用浪潮的設備。”徐姚晨將話跳至10余年后。而從GB到PB不僅是兩個數量級的差異,這更代表了IT技術與生命科學的深度融合。
其實,2010年是一個重要時間節點,生物科學的試驗手段和試驗設備,在此后均出現大規模更新換代。當然,此時需要采集的研究數據也呈現爆發式增長。而這背后,更隱含著對存儲空間、I/O性能、高并發性能的更高訴求,以及設備管理、子系統管理、數據管理等諸多問題。
這又是一個相對專業的話題。生物科學被譽為“21世紀的科學”,細胞生物學又是生命科學研究的最前沿領域。通過研究細胞的生命活動過程、基因調控,以及細胞與微環境的關系,即可了解細胞的健康活動和發育過程。解答人類壽命到底可以延長多久?是什么控制著器官再生?為什么人類基因會如此之多?等一系列問題。
所謂一花一世界,大致就可描述科學家對細胞的研究。因為顯微成像、基因組學、蛋白質組學檢測,均會產生海量數據,而中科院生化與細胞所正是基于對上述課題的研究,決定進行數據存儲設備采購,以數字化技術提升為細胞研究提速。
數據存儲也必須分層
問題也是由此而來。
這里有必要對中科院生化與細胞所,再進行詳細介紹。研究所下設數十個實驗室,研究方向涵蓋:基因調控、RNA、表觀遺傳學;蛋白質科學;細胞信號轉導;細胞與干細胞生物學;癌癥和其它重大疾病機理等五大前沿領域。
也就是說,研究所的存儲平臺峰值時,需同時支撐超過70個課題組,近1000多名用戶。而且課題組的研究方向不一樣,試驗手段不一樣,產生的數據類型也不一樣,調用和分析數據的方法更不一樣。
“科學家對計算和存儲一直十分挑剔。”徐姚晨開始解釋他的工作。可以想象,科學家經過幾天不眠不休,將小鼠數字化,而一旦數據丟失,所有的研究成果都將付諸東流。“所以,我們的工作就是讓科學家安心于科研。”
浪潮新存儲之道
經過與浪潮解決方案專家的聯合研究,一套涵蓋計算、網絡、存儲、大數據、虛擬化、安全、備份等多種IT設備,可服務數據全生命周期的存儲解決方案,已經部署于中科院細胞所,而且此解決方案已經實現了“分層”,即特定的需求黏性聯接特定的產品,這樣冷、熱數據可以分層存儲使用,系統效率大幅度提升。
具體而言,在核心業務方面,浪潮存儲提供了由多套統一存儲構建的統一數據資源池,用于承載生物細胞分析和研究的核心業務。浪潮存儲基于iTurbo智能引擎技術,可以智能感知前端Lustre高性能計算業務的I/O負載,實現數據智能調度和智能管理,讓百萬級IOPS在存儲系統內自由流動,大幅提升細胞研究的數據處理效率。
面對海量實驗室數據,浪潮存儲提供了分布式存儲平臺。基于分布式全對稱架構,不僅能保證所有節點的數據一致性,而且隨著細胞研究數據量的增加,還可以靈活擴展存儲節點,最大可擴展至EB級,輕松容納海量實驗室數據。同時,浪潮分布式存儲還能以一套存儲并發提供文件、塊、對象,以及大數據四種存儲服務,滿足文件共享、云計算、大數據等不同業務的訪問需求。
浪潮對需求的理解會說話
這里再插播一個小故事。數年前,浪潮推出分布式存儲系統,徐姚晨看到新聞很是激動,彼時本土科技企業尚無人推出類似產品,但徐姚晨又暫時無法說服他的同事,因為科學研究可以永遠鼓勵創新嘗試,但支撐科學研究又不允許他去嘗試。
現在已經時過境遷。如今的本土存儲系統,更像一個既會賺錢,又愛家庭的男人。因為他們的產品會說話,浪潮已經具有從軟件到硬件的全棧自研能力,也因為他們對用戶需求的理解更會說話,所有特定需求都會得到滿足。
浪潮存儲
其實,浪潮一直與國內多家高校和研究所,保持著緊密的合作。這也使其有機會接觸到更前沿的應用需求,研制出更具創新價值的產品功能。舉例說明,基于與復旦大學在腦科學領域的合作,浪潮形成了“軟拷貝”技術;基于與清華大學在RUSH腦成像領域的合作,浪潮存儲提供了成熟的“回收站”技術。此外,浪潮在存儲領域首創的零拷貝、閃搜索等技術,也都源自于科研院所的合作。
而回到中科院生化與細胞所的應用,IT系統正在成為研究所之“膽”。浪潮存儲為細胞研究配置了,業界首創的文件系統級別的回收站功能,防止多人操作同一源數據時,重要文件誤刪除。同時通過糾刪碼+副本的方式,進一步為數據提供保護。
而在數據保護方面,浪潮存儲為中科院細胞所提供了備份軟件、浪潮磁帶庫相結合的數據備份方案,采用LAN FREE和LAN備份方式實現集中、統一、快速、自動的數據備份,降低數據丟失風險。
也正是基于上述解決方案,正是基于浪潮與研究所的合作,“動物復雜性狀的進化解析與調控”等一批重點科研項目,得以順利進行。“而這些項目,正是科學家原本在計算與存儲方面不敢做,也做不動的課題。”徐姚晨最后說。