如果說 18、19 世紀是蒸汽機、電動機的時代,20 世紀是信息化的時代,那么 21 世紀可以說是生命科學、人工智能的時代。
物理學家倫琴發現 X 射線,為沃森和克里克提出 DNA 雙螺旋結構提供了重要的技術基礎。
DNA 雙螺旋結構的發現標志著人類對生命科學的研究進入了分子水平,預示著人們即將揭開生命遺傳的神秘面紗,對于更為深入地認知生命過程,進行疾病控制和品種改良等具有劃時代的意義。
“高冷”的超級計算與“神秘”的生命科學
生命科學作為 21 世紀最重要的科學分支之一,離不開信息技術的突破與發展;高性能計算作為人工智能模型建立的基礎,對生命科學的研究起到非常重要的推動作用。
隨著基因測序技術的飛速發展,基因組序列的海量數據不斷涌現,數據正以指數級增長,對于如此龐大的基因進行同源性搜尋、比對、分析和遺傳發育分析等等,往往伴隨著巨大的數據處理量和并行計算量。
同時,由于生命科學的研究對象往往是蛋白質和 DNA 的大分子,對這些分子的三維結構的預測,動力學特性、熱力學特性、在生命過程中如何發生作用,進行分子動力學模擬以及利用計算機輔助藥物設計等等科學問題,都需要借助計算機來處理。
高性能計算作為一種用于解決計算密集型、海量數據處理等計算需求的計算科學形式,正是生命科學所需要的,可以通過計算分析、模擬試驗,來驗證理論的正確性。
高性能計算(High Performance Computing,縮寫 HPC)可以理解為使用很多處理器或者是某一集群中的幾臺計算機的硬件資源、計算系統和環境,將大規模的運算任務拆分成很多小任務,分發到各個服務器上并行計算,再將計算結果匯總成最終的結果。
前文提到基因組數據是非常龐大的,這個“龐大”是什么概念呢?
舉個例子,人類的基因組大約包括 30 億堿基對,相當于 3GB 的數據,而如果考慮到準確測序所需的深度或覆蓋倍數,比如 30 倍就能取得相當準確的測序數據,那么一個人的基因組數據量將達到 100GB 左右。
有一種植物叫重樓,是一種很有名的中草藥,能清熱解毒、消腫止痛。在重樓中有一個種類叫做重樓百合,重樓百合有著世界上最龐大的基因組,基因組中擁有大約 1500 億個堿基對,差不多是人類基因組數據量的 50 倍??紤]準確測序,重樓百合的基因組數據量至少有 4TB。
據專業人士預測,基因研究工程需要的計算資源(包括計算速度、內存和磁盤存容量以及網絡通信能力)將超過人類登月工程的上百萬倍。
著名的“人類基因組計劃”于 1990 年啟動,耗時 13 年、花費 30 億美元初步完成人類全基因組測序,當時測一個基因組需要花費 1 億美元;而現在,一個基因組測序費用降到了 1000 美元以下,測序時長縮短到了 1-10 天。
測序的成本和時長均呈現超摩爾定律下降,基因測序逐漸走入尋常百姓家,而讓基因測序變得可用、實用的關鍵因素之一就是 HPC 技術的應用。
我國一直積極發展高性能計算技術,相繼出臺“863”、“新基建”、“十四五”和“東數西算”等政策方針指導,數據中心市場不斷擴大,國家和企業自建的數據中心規模穩步快速增長。
彈性高性能計算助力破解生命密碼
科學技術的發展與應用相輔相成。隨著生物學數據不斷增長和生命科學研究的不斷深入,傳統 HPC 逐漸顯現弊端:過于依賴人工運維與管理,排期和等待時間長;租戶共用超算網絡,面對各種新型網絡攻擊方式,網絡安全問題重重;購買硬件設備自建投入大,周期長,作業高峰期資源不足,作業低谷期資源浪費嚴重,等等。
為了更好地適應新的計算需求,生物學家們開始使用一種新的計算方式,也就是彈性高性能計算。
彈性高性能計算(Elastic High Performance Computing,縮寫EHPC)提供彈性和可擴展的 HPC 計算資源,是傳統 HPC 技術與云計算技術的融合升級。
用戶可以同時享有 HPC 計算的超高性能和云計算的彈性與可擴展性,通過快捷、彈性、安全以及互通的公有云高性能計算服務,實現計算資源的彈性定制,大大降低了作業費用,提高了資源利用率,具有極大的靈活性。
據報道,近日斯坦福大學研究團隊將人類 DNA 測序的時間縮短至 5 小時 2 分鐘,重新定義了人類基因組測序速度,該研究團隊就是利用了 EHPC,將病例樣本原始信號數據實時傳輸到云存儲,通過云計算系統對算力進行彈性擴容,將數據分布到多臺云計算機上實時篩選,使測序后運行時間減少了 93%。
生命科學領域不乏優秀的 EHPC 解決方案,以青云 QingCloud EHPC 生命科學云解決方案為例,其基于青云QingCloud 云基礎設施,面向基因測序分析、藥物虛擬篩選、蛋白質結構預測、分子動力學模擬等應用場景,為生命科學行業用戶提供一站式高性價比解決方案。
計算資源
Intel Xeon 6258R 型號 CPU,雙核,單顆處理器主頻 2.7GHz、28 核,單核心峰值 86.4 GFlops,GPU 計算采用 NVIDIA GPU A100 卡;
存儲資源
采用分布式并行文件系統 Lustre 商用版本,提供 GB 級吞吐,百萬級 IOPS;
網絡資源
采用專用 IB 網絡,計算節點之間,計算與存儲之間通信最高達 100GB/S;
軟件資源
平臺預置 300+ 共享軟件倉庫,如,用于生物分子序列數據進行同源及相似性分析的 BLAST、FASTA、HMMER、SHAPEIT,用于分子動力學模擬的 AMBER,用于計算機輔助藥物設計的 AutoDock 等應用軟件,一鍵勾選即可快速開啟云上作業任務,除平臺預置的軟件外,還支持用戶自研軟件及其他應用軟件的安裝。
QingCloud EHPC 架構圖
EHPC 在生命科學領域中的應用
應用場景 1:基因測序分析,解決海量基因測序數據對計算、存儲、資源彈性、應用軟件、數據可視化的需求。
解決方案:
資源豐富:提供豐富的算力資源支持、數據管理、軟件應用的一站式服務;
彈性伸縮:計算和存儲資源按需擴容,即開即用,無等待時耗;
應用軟件:預置多款應用軟件,并支持按需安裝及應用,支持基因測序場景使用;
結果可視化:樣本分析結果和變異檢測結果可以直接在線查看、預覽和下載,也可以直接共享給集群內用戶。
QingCloud EHPC 基于基因測序分析的服務場景圖
應用場景 2:蛋白質結構預測,解決蛋白質結構建模及預測對浮點計算能力、分子結構解析精度的需求。
解決方案:
高性能異構資源:每個節點內采用“CPU+GPU”異構模式,每個節點可以配置多塊 GPU A100 卡;
強大的訓練能力:提供多種 GPU 實例規格,靈活滿足蛋白質結構模型訓練和數據分析所需的算力資源;
優異的推理能力:GPU A100 通過全系列精度加速,提供領先的推理能力,實現強大的多元化用途;
巨大的存儲能力:分布式并行文件系統 Lustre 商用版本,GB 級吞吐,百萬級 IOPS,有效支撐多軟件大內存和 IO 需求。
QingCloud EHPC 基于蛋白質結構預測的服務場景圖
應用場景 3:藥物研發,解決靶標分子合成及測試生物活性對算力、內存、時效的需求。
解決方案:
調度系統:EHPC 集群基于 SLURM 等多種調度系統,實現多任務并行計算,提高研發時效;
計算資源:提供 CPU 和 GPU 兩種計算資源,并提供不同實例規格,按需滿足藥物研發全流程計算需求;
并行文件系統:采用 Lustre 并行文件系統及 NAS 共享文件存儲,滿足分布式并行讀寫能力的同時,支持多用戶共享數據資源及計算成果;
用戶權限管理:實現多用戶協同作業,適應藥物研發多人多作業項目場景。
QingCloud EHPC 基于藥物研發的服務場景圖
應用場景 4:分子動力學模擬,解決分子力場的計算量對大規模并行計算、應用軟件、網絡低延時、經濟性價比的需求。
解決方案:
提供豐富的超算算力資源:滿足分子動力學場景下的生信計算對資源的需求;
應用軟件:軟件中心預置 50+ 種分子動力學軟件,無需安裝,直接調用,簡單快捷享用一鍵式作業提交;
低延時高帶寬:所有設備支持 IB 網絡,計算節點之間、計算與存儲之間通信最高達 100GB/S,包含 IB 交換機、IB 網卡(每個節點雙卡),最多不超過 2 層轉發;
性價比高:按需購買隊列或集群,靈活計費,省時省錢,無額外費用損耗。
QingCloud EHPC 基于分子動力學模擬的服務場景圖
應用場景 5:生命科學行業對混合云架構和數據安全性的通用需求。
解決方案:
青云QingCloud 是一家國產自研的企業級云服務商與數字化解決方案提供商,無縫打通公有云和私有云,交付一致功能與體驗的混合云?;诨旌显瓶蚣芎图夹g的 QingCloud EHPC 高性能計算平臺提供多租戶隔離機制,可大大提高數據安全性和高可用性。
平臺支持 Singularity 容器應用,集群集成 Singularity 容器環境,用戶可以將容器應用上傳后使用 EHPC 集群,有效解決應用軟件與部署環境的適配問題,降低軟件部署的復雜度,提高軟件管理及運維效率。
平臺提供符合網絡安全等級標準的防護措施和隱私計算,幫助生命科學領域的用戶打破數據孤島的同時,有效消除安全隱患。
QingCloud EHPC 基于混合云的服務場景圖
給時光以生命
2001 年,人類基因組工作草圖的發布被認為是人類基因組計劃成功的里程碑事件,距今已過去 20 余年。
今年 3 月,科學家首次公布了第一個完整的、無間隙的人類基因組序列,這是對標準人類參考基因組,即 2013 年發布的參考基因組序列(GRCh38)的“重大升級”。
《科學》雜志這樣總結:最新的人類參考基因組代表著重要的一步,表明可以組裝代表所有人類的基因模型,這將更好地支持個體化醫療、人口基因組分析和基因組編輯。
這意味著圍繞基因組學進行癌癥、精神疾病等各種疾病的個性化治療有望進一步實現。不禁令人想象,假如穿越 1990 年,為人類基因組計劃插上 EHPC 的“翅膀”,現在的世界將會怎樣?
偉大的數學家、物理學家帕斯卡曾說過:給時光以生命,而不是給生命以時光。
在科學技術爆炸式發展的今天,越來越多的未解之謎將被科學解開,人類在有限的生命中探索著無限的價值,生命科學的發展注定在新一代科學技術的引領下更好地造福人類。