世上沒有兩片完全相同的樹葉,人體內的每兩個細胞也是截然不同的。長久以來,基因檢測技術主要是在組織層面對樣本進行解析,獲得的是成千上萬個細胞的平均值,但這會讓很多信息是被隱匿,對疾病的認知和理解存在很大的障礙。
單細胞檢測技術將基因檢測的水平提升到了單細胞的精度,可以揭示每一個細胞的細微變化,對疾病的認知、診療方式的改變、藥物研發的方式提供了更好的方法。而其中,高通量測序(NGS)技術因其高度準確性和特異性成為了單細胞測序的理想工具。
尋因生物,是一家自主研發單細胞技術的精準醫療生物醫藥企業,致力于通過國產高通量單細胞全鏈條產品及服務,將單細胞技術普適化,應用于臨床及藥物研發,推動相關疾病研究。
通常,單細胞測序工作流程包含單細胞樣本制備、單細胞分離和文庫制備、測序和初級分析、數據可視化和解讀四個步驟。作為國內獨家擁有微孔芯片與油包水雙技術平臺的尋因生物來說,單細胞樣本制備、單細胞分離和文庫制備是其強項。同時,尋因生物具有完備的數據分析和解讀能力,底層分析計算效率的提升十分必要。
據悉,在單細胞測序數據分析環節,業界普遍存在數據量大、分析時間長的挑戰。僅一個單細胞測序文件的大小可達100GB以上,而隨著一個單細胞項目包含的樣本量越來越多,可能產生數百GB甚至TB級的細胞數據;同時,單細胞數據的分析復雜,需要反復做數據讀取和參數調整,所以處理海量細胞樣本的分析任務通常需要數小時甚至數天才能完成。因此,超大數據量和分析復雜性所導致的任務并發度低和數據加載速率慢是未來單細胞分析性能的主要瓶頸之一。
在單細胞測序數據分析過程中,每個細胞的表達量數據高達數十萬條讀取 (reads),產生的數據更是要大得多,這種海量級的數據分析對云主機的內存容量提出了更高的要求。而通用的云主機的內存容量與CPU配比有限,單細胞的分析任務常會出現因內存不足而導致運行失敗;而選用傳統的大內存云主機,不僅要付出更加高昂的成本,而且會造成CPU算力的浪費。所以,內存容量的限制使尋因生物不得不將樣本參數調低來滿足運行任務。此外,通用的云主機僅能支持運行一個單細胞分析任務,在測序任務多的情況下,尋因生物只能將多任務排隊執行,非常耗時;同時,在測序數據分析過程中,每次臨時數據在磁盤上的導出和加載(IO)過程長達1000秒,隨著數據集的持續增長,這種處理速度阻礙了預期的研究發現時間。
當前,尋因生物將單細胞測序分析任務部署在了第三代英特爾® 至強® 可擴展處理器 (代號: Ice Lake) 和 英特爾® 傲騰™ 持久內存的阿里云i4p持久內存型實例上,并在實例中使用了MemVerge公司開發的 Memory Machine大內存軟件,不但完全消除磁盤讀寫帶來的IO瓶頸,幫助尋因生物成功地運行了多細胞數、大樣本的測序數據分析任務,并能通過Memory Machine的ZeroIO內存快照功能使數據導出和加載從原來的1000秒降至2.5秒,將數據讀取的效率提升了兩個數量級。
阿里云i4p持久內存實例是阿里云基于英特爾® 傲騰™ 持久內存推出的第二代持久內存實例,傲騰® 持久內存讓高性價比的大容量內存與對數據持久性的支持巧妙地結合在一起,將更多數據保存在更靠近CPU的地方,加速了大內存計算, 可以說重新定義了傳統的兩級存儲架構。
除基本vCPU和內存外,阿里云i4p實例還配置了持久內存資源,極大地擴展了主機的內存容量,讓內存中可以存放更多數據用于測序數據分析,同時并發運行更多的測序任務,相對于傳統普通大內存實例,i4p持久內存實例可以幫助用戶打破“內存墻”藩籬,獲得更高性能的同時,有效降低整體IT基礎設施擁有成本(TCO)。
MemVerge開發的Memory Machine大內存虛擬化軟件,可運行在i4p持久內存實例中,將其中的持久內存和普通內存進行融合,可以透明地使用大內存資源,無需對應用進行改造,即可充分發揮持久內存的全部性能;其軟件的高級功能“ZeroIO內存快照”,可以完全避免臨時數據的磁盤IO過程,實現客戶應用性能的飛躍。同時通過阿里云計算巢還實現了Memory Machine大內存虛擬化軟件與云平臺的標準化集成,實現快速的軟件交付部署和標準化的運維管理,大幅提升了業務效率。
“這能夠使我們的單細胞數據分析業務完全消除IO瓶頸,并在實際的分析任務中將持久內存的大容量能力充分利用起來,讓任務的并發能力提升了5倍以上,且該方案能讓多細胞數,大樣本任務能順利地運行成功,對提高我們生信用戶的業務吞吐能力和工作效率有非常大的助力。”尋因生物公司生物部張廣鑫表示。