【ITBEAR】摩爾線程近日宣布,已成功將大語言模型高速推理框架vLLM的MUSA移植版本上線,為開發者在使用摩爾線程全功能GPU進行開源項目MUSA移植時,提供了實用的參考范例。
該公司正致力于依托其自主研發的統一系統架構GPU以及MUSA軟件平臺,構建一個完善且用戶友好的MUSA應用生態。
據悉,vLLM是一款高效且便捷的大模型推理和服務框架,它支持包括PagedAttention內存管理、連續批處理請求、CUDA/HIP圖的快速模型執行在內的多項創新技術,并能顯著提升大語言模型(LLM)的推理性能。目前,該框架已被廣泛應用于各類大語言模型,并成為行業內備受推崇的開源大模型推理框架。
摩爾線程基于vLLM v0.4.2版本進行了細致的移植適配工作,使得該框架能夠支持摩爾線程GPU后端Device。更重要的是,這一移植版本已完全開源,為開發者提供了二次開發、升級vLLM至社區更新版本等靈活性。
摩爾線程的MUSA架構憑借其先進性,以及軟件棧對CUDA的出色兼容性,通過MUSIFY代碼自動轉換工具,用戶可以輕松將原有的CUDA代碼遷移至MUSA平臺,實現無縫替代。
同時,摩爾線程還提供了包括算子庫muDNN、集合通信庫MCCL、線性代數庫muBLAS等一系列MUSA加速庫,以便快速替換CUDA相關庫的調用。
通過MUSA軟件棧對CUDA軟件棧接口的兼容,摩爾線程不僅大幅提高了應用移植的效率,還縮短了開發周期。該公司還提供了一系列實用的工具和腳本,其中包括MUSIFY自動代碼移植工具,以進一步簡化開發過程。
對于那些對摩爾線程vLLM-MUSA開源項目感興趣的開發者,可以通過以下鏈接獲取更多信息:
https://github.com/MooreThreads/vLLM_musa