7月26日,數澈軟件Seal(以下簡稱“Seal”)宣布正式發布并開源最新產品 GPUStack,GPUStack 是一個用于運行 LLM(大型語言模型)的開源 GPU 集群管理器。
盡管如今大語言模型作為公共的云上服務已經被廣泛推廣并在公有云上變得更加易于使用,但對企業來說,部署托管自己私有的 LLM 供企業和組織在私有環境使用仍然非常復雜。
企業需要安裝和管理復雜的集群軟件,如 Kubernetes,然后還需要研究清楚如何在上層安裝和管理 AI 相關的工具棧。而目前流行的能在本地環境運行 LLM 的方法,如 LMStudio 和 LocalAI,卻大都只支持在單臺機器上運行,而沒有提供多節點復雜集群環境的支持能力。
Seal 聯合創始人及 CTO 梁勝博士介紹道,“GPUStack 支持基于任何品牌的異構 GPU 構建統一管理的算力集群,無論目標 GPU 運行在 Apple Mac、Windows PC 還是 Linux 服務器上, GPUStack 都能統一納管并形成統一算力集群。GPUStack 管理員可以從諸如 Hugging Face 等流行的大語言模型倉庫中輕松部署任意 LLM。進而,開發人員則可以像訪問 OpenAI 或 Microsoft Azure 等供應商提供的公有 LLM 服務的 API 一樣,非常簡便地調用 OpenAI 兼容的 API 訪問部署就緒的私有 LLM。”
幫助企業簡單快速地開啟 LLM 創新
當前,企業如果想要在 GPU 集群上托管大模型,必須要做大量的工作來集成復雜的技術棧。通過使用 GPUStack,企業不再需要擔心如何管理 GPU 集群、推理引擎和推理加速、租戶和配額管理、使用和計量、性能度量、統一認證授權和訪問控制,以及儀表板。
如下圖所示,GPUStack 是一個構建企業私有的大模型即服務(LLMaaS)的完整平臺,擁有構建大模型即服務所需的各項功能。管理員可以將模型從 Hugging Face 等模型倉庫部署到 GPUStack 中,然后開發人員可以連接到 GPUStack 提供的私有大模型 API,在他們的應用中集成和使用私有大模型服務。
“隨著大語言模型能力的逐漸提高,企業和組織一方面對快速進入 AI 時代充滿了信心并滿懷期待,希望大語言模型能盡快為自己的企業和組織帶來生產效能的提高,而另一方面,對于能否有效地把如火如荼的大語言模型技術進一步與實際業務進行有機結合,是否能因此產生相應的效益,企業及團隊又同時充滿了疑問。我們希望通過簡單易用的 GPUStack 平臺,部署和運行各種開源大語言模型,提供 OpenAI 兼容的 API 接口,使得開發人員簡單方便地訪問任何的 LLM。” Seal 聯合創始人及 CEO 秦小康介紹道,“最重要的是,我們支持 Nvidia,Intel,AMD 及眾多品牌的 GPU,在支持異構 GPU 集群的同時能為企業節省更多成本。幫助企業簡單快速地開啟 LLM 創新是 GPUStack 團隊的初心和使命。”
整合GPU資源運行大模型
組建 GPU 集群整合資源
GPUStack 可以聚合集群內的所有 GPU 資源。它旨在支持所有的 GPU 廠商,包括英偉達,蘋果,AMD,英特爾,高通,華為等。GPUStack 兼容運行 MacOS、Windows 和 Linux 操作系統的筆記本電腦、臺式機、工作站和服務器。
模型部署和推理
GPUStack 為在不同 GPU 上部署不同大模型選擇最佳的推理引擎,支持的首個推理引擎是 LLaMA.cpp,其他推理引擎(如vLLM)的支持也在路線圖中。
在資源充足的情況下,GPUStack 默認將模型全部卸載到 GPU,以實現最佳性能的推理加速。如果 GPU 資源相對不足,GPUStack 會同時使用 GPU 和 CPU 進行混合推理,以最大限度地利用資源。而在沒有 GPU 資源的場景下,GPUStack 也支持純 CPU 推理。這樣的設計使 GPUStack 能夠更廣泛地適配各種邊緣或資源有限的環境。
快速與現有應用集成
GPUStack 提供了與 OpenAI 兼容的 API,并提供了大模型試驗場。開發人員可以調試大模型并將其快速集成到自己的應用中。此外,開發人員還可以通過觀測指標來了解應用對各種大模型的使用情況。這也有助于管理員有效地管理 GPU 資源利用。
GPU 和 LLM 的觀測指標
GPUStack 提供全面的性能、利用率和狀態監控指標。對于 GPU,管理員可以使用 GPUStack 實時監控資源利用率和系統狀態。對于 LLM,相關指標則可以幫助開發人員評估模型的性能并優化應用。
認證和訪問控制
GPUStack 為企業提供身份驗證和RBAC(Role-based Access Control)功能。這保證了只有授權的管理員可以部署和管理大模型,只有授權的開發人員可以使用大模型,應用也可以通過統一的 API 認證授權訪問各種大模型。
加入社區,參與開源共創
GPUStack 項目正在快速迭代,計劃引入對多模態模型的支持,更多的 GPU 廠商支持,以及更多的推理引擎支持。我們十分歡迎您一起參與開源項目的貢獻,也歡迎在我們的 GitHub 倉庫 gpustack/gpustack 上點亮 Star 關注我們的最新動態。