近日,北京趨動科技有限公司(以下簡稱“趨動科技”)與深信服正式推出聯合解決方案。聯合解決方案將深信服EDS的高性能存儲與趨動科技OrionX AI算力資源池化軟件、以及Gemini AI訓練平臺有機結合,整合存力與算力資源的同時,幫助用戶建好AI平臺、管好AI資源、用好AI服務。
具體來說,聯合解決方案的推出將為AI領域用戶的基礎設施建設帶來以下改變。
1、高性能聯合方案就緒,打造更高效的訓練平臺
隨著AI大模型建設進度的加快,用戶對AI模型訓練效率的要求也越來越高。但由于GPU算力資源不足和底層存儲小文件讀寫性能不足等問題,訓練平臺內大量的訓練任務不得不排隊等待。算力和存力上的能力缺失,拖慢了整個AI訓練平臺的訓練效率。
針對此種情況,聯合解決方案自上而下做了全面優化。針對上層訓練平臺的效率問題,趨動科技OrionX AI算力資源池化軟件通過打造算力資源池,幫助用戶根據任務情況靈活分配GPU資源,實現資源的切分、聚合、遠程調用、超分、任務排隊、動態掛載和釋放、以及國產芯片異構池化等能力,充分滿足各項訓練任務的算力開銷,加速任務開展。同時,Gemini AI訓練平臺提供的調度能力優化了訓練平臺的管理機制,統一調度下,AI模型的訓練更加高效。
針對底層存儲的性能問題,通過EDS自研的啟發式預讀機制和多活元數據服務,可有效解決小文件性能難題,百億數據集規模下也可提供高速的讀寫能力,從而減少GPU的等待時間,提高短期循環訓練的吞吐能力和訓練效率。
2、容量與性能同步擴展,打造高性價比的存儲方案
在日常的AI數據集訓練過程中,為了讓模型更加精準,常常需要用海量的圖像、文本等數據對AI模型進行訓練。飛速增長的數據給底層存儲的容量和性能帶來了巨大的壓力,傳統存儲高成本、低效率的擴容模式愈發難以滿足性能和容量的需求。
憑借矩陣式存儲算法等全自研技術,EDS在存儲圖文、視頻等小文件的過程中,可有效解決小文件寫放大導致的空間浪費問題,最大化利用存儲空間,三節點組成的集群即可滿足一個中等規模的AI訓練團隊的存儲需求。在性能的擴容方面,也得益于軟件定義存儲的架構優勢,EDS在進行擴容時可實現容量與性能地同步擴展,靈活應對AI業務快速增長的性能需求。
3、統一管理,深度挖掘數據價值
在方案發布前,EDS已經通過NFS CSI、S3等協議與趨動科技的Gemini AI訓練平臺實現了無縫對接。深度適配下,Kubernetes容器編排平臺可更快完成存儲資源的動態分配,用戶在部署時可直接跳過針對方案的可行性研究環節,快速上線AI訓練任務。同時,EDS還支持多協議間的數據互通,多類型客戶端可共用一套存儲,各階段成果數據無須跨存儲拷貝即可實現高效流轉,確保用戶在任何訓練階段都可有效調用數據成果,更便捷地挖掘數據價值。
未來,雙方還將在技術領域加強合作,以更高存儲性能的聯合方案助力用戶加速完成AI訓練平臺的升級建設,幫助更多用戶在AI訓練的道路上走得更快更穩。
關于趨動科技:趨動科技致力于為用戶提供全球領先的數據中心級AI算力虛擬化和資源池化解決方案,目前已有多家人工智能、互聯網、運營商、金融、汽車及自動駕駛、教育等行業的頭部企業和用戶使用OrionX AI算力資源池化解決方案。