在本地運行大語言模型的五種簡便方法-魔扣目錄

譯者 | 陳峻

審校 | 重樓

現如今，像ChatGPT、以及phind之類基于AI的聊天機器人，已經能夠為我們生活的方方面面提供各種幫助了。但是，您可能并不總是希望由外部應用程序來處理您提出的問題以及敏感數據。尤其是在一些平臺上，您與AI的互動，很可能會被后臺人工監控，甚至被用于幫助訓練其未來的模型。

在本地運行大語言模型的五種簡便方法

對此，您自然而然地會想到下載大語言模型（LLM），并在自己的機器上運行。如此，外部公司就無法訪問您的數據。同時，這也是嘗試一些新的專業模型的快速試錯方式。例如，Meta最近發布的針對編程領域的Code Llama 系列模型，以及針對文本到語音、以及語言翻譯的SeamlessM4T。

“在本地運行LLM”這聽起來可能有些復雜，但是只要您擁有合適的工具，就會變得出奇簡單。由于許多模型對硬件的要求并不高，因此我在兩個系統上進行了測試。它們分別是：配備了英特爾i9處理器、64GB內存和Nvidia GeForce 12GB GPU的戴爾PC，以及配備了M1芯片，但只有16GB內存的mac。

需要注意的是，您可能需要花點時間研究、并關注開源模型的不斷迭代，以發現一款能在自己桌面硬件上運行的、性能合適的模型。

1.使用GPT4All運行本地聊天機器人

GPT4All提供了windows、macOS和Ubuntu版本桌面客戶端的下載，以及在系統上運行不同模型的選項。總的說來，其設置并不復雜。

首次在打開GPT4All桌面應用時，您將看到約10個（截至本文撰寫時）可下載到本地運行的模型選項，其中就包含了來自Meta AI的模型Llama-2-7B chat。如果您有API密鑰的話，也可以設置OpenAI的GPT-3.5和GPT-4（如果您有訪問權限的話）為非本地使用。

上圖為GPT4All的模型下載界面部分。在我打開該應用時，事先下載的模型就自動出現了。

在設置好模型后，簡潔易用的聊天機器人界面就出現了。說它便捷，是因為我們可以將聊天內容復制到剪貼板上，以生成回復。

在本地運行大語言模型的五種簡便方法

同時，它提供了一個新的測試版LocalDocs插件，方便您與自己的本地文檔進行“聊天”。您可以在“設置”>“插件”選項卡中啟用它。在此，您會看到一個 “LocalDocs Plugin (BETA) Settings”標題和一個在特定文件夾路徑下創建集合的選項。當然，該插件仍在開發中，其相關文檔聲稱，這是一個有趣的功能，并會隨著開源模型功能的不斷完善，而得到持續改進。

除了聊天機器人應用，GPT4All也綁定了Python/ target=_blank class=infotextkey>Python、Node和命令行界面（CLI）。同時，GPT4All還有一個服務器模式，方便您可以通過結構類似OpenAI的HTTP API，與本地LLM進行交互。可見，其目標是讓您只需修改幾行代碼，就能將本地LLM換成OpenAI的LLM。

2.命令行模式下的LLM

由Simon Willison提供的LLM是我見過的，這是在本地計算機上下載和使用開源LLM的最簡單方法之一。雖然運行它需要安裝Python，但您不需要接觸任何Python代碼。如果您使用的是Mac并安裝了Homebrew的話，只需運行如下命令：

brew install llm

如果您使用的是Windows系統，請安裝Python庫，并輸入：

pip install llm

LLM默認會使用OpenAI模型，但是您可以使用插件在本地運行其他模型。例如，如果您安裝了GPT4All插件，就可以訪問GPT4All中的其他本地模型。此外，llama還有MLC項目、MPT-30B、以及其他遠程模型的插件。

請使用llm install model-name的格式，在命令行安裝插件。例如：

llm install llm-gpt4all

接著，您可以使用命令llm models list，查看所有可用的遠程或已安裝的模型。如下列表所示，其中還包含了每個型號的簡要信息。

您可以通過使用以下語法，向本地LLM發送查詢請求：

llm -m the-model-name "Your query"

接著，我向它提出了一個類似ChatGPT的問題，但并沒有發出單獨的命令來下載模型：

llm -m ggml-model-gpt4all-falcon-q4_0 "Tell me a joke about computer programming"

值得一提的是，如果本地系統中不存在GPT4All模型的話，LLM工具會在運行查詢之前，自動為您下載。而且，在下載模型的過程中，您會在終端上看到如下的進度條。

在本地運行大語言模型的五種簡便方法

模型給出的笑話是：“程序員為什么要關掉電腦？因為他想看看電腦是否還在工作！”這證明交互已成功進行。如果您覺得該結果不盡如人意的話，那是因為模型本身、或是用戶提示信息不足，而并非LLM工具。

同時，您也可以在LLM中為模型設置別名，以便用更簡短的名稱來對其進行引用：

llm aliases set falconggml-model-gpt4all-falcon-q4_0

完成后，您可以通過輸入：llm aliases，來查看所有可用的別名。

相比之下，用于Meta Llama模型的LLM插件需要比GPT4All更多的設置。您可以通過鏈接https://Github.com/simonw/llm-llama-cpp，在LLM插件的GitHub庫閱讀詳情。值得注意的是，通用的llama-2-7b-chat雖然能夠在我的Mac上運行，但是它與GPT4All模型相比，運行更慢。

當然，LLM還具有其他功能，例如：參數標志可以讓您從之前的聊天處繼續進行，以及在Python腳本中使用。9月初，該應用獲得了生成式文本嵌入工具，即文本含義的數字表示，可用于相關文檔的搜索。您可以通過訪問LLM網站，了解更多相關信息。

3.Mac上的Llama模型：Ollama

Ollama是一種比LLM更容易下載和運行模型的方法，但它的局限性也更大。目前，它有macOS和linux版本，其Windows版本即將被推出。

如上圖所示，通過幾步點擊即可完成安裝。雖然Ollama是一個命令行工具，但它也只有一個語法命令：ollama run model-name。與LLM類似，如果系統中還沒有所需的模型，它將自動進行下載。

您可以在https://ollama.ai/library網站上，查看到可用模型的列表。截至本文撰寫之時，其中已包含了：通用Llama 2、Code Llama、DeepSE針對某些編程任務進行過微調的CodeUp，以及針對醫學問答進行過微調的medllama2等，多個基于Llama的模型版本。

Ollama在GitHub代碼庫中的 README列出了各種型號與規格，并建議“若要運行3B型號，至少需要8GB內存；若要運行7B型號，至少需要16GB內存；若要運行13B型號，至少需要32GB內存”。在我的16GB內存Mac上，7B Code Llama的運行速度就特別快。在專業方面，它可以回答有關bash/zshshell命令，以及Python和JAVAScript等編程語言的問題。

在本地運行大語言模型的五種簡便方法

上圖展示了在Ollama終端窗口中運行Code Llama的效果。例如，對于一個R代碼問題：“請為一個ggplot2條形圖編寫 R 代碼，其中條形圖的顏色為鋼藍色"。許多較大的模型都無法完整回答，而Code Llama雖然是該系列中最小的模型，但是其回答相當出色。其交付出的代碼基本正確，只是其中有兩行代碼中多了兩個小括號，這在集成開發環境（IDE）中很容易被發現。

Ollama還有一些附加功能，包括：與LangChain的集成(https://www.infoworld.com/article/3705097/a-brief-guide-to-langchain-for-software-developers.html)和與PrivateGPT一起運行的功能。當然，如果您不去查看其GitHub軟件庫的教程頁面(https://github.com/jmorganca/ollama/blob/main/docs/tutorials.md)的話，這些功能可能并不明顯。

4.與自己的文件聊天：h2oGPT

深耕自動化機器學習領域多年的H2O.ai，已進入了聊天LLM賽道。其h2oGPT聊天桌面應用測試版，非常易于新手的安裝與使用。

為了熟悉其界面，您可以訪問https://gpt.h2o.ai/網站上的演示版本（注意，并非本地系統的LLM）。而為了獲取其本地版本，您需要克隆其GitHub庫，創建并激活Python虛擬環境，然后運行README文件中的五行代碼。根據文檔的相關介紹，運行結果會給您提供“有限的文檔Q/A功能”和Meta的Llama模型。

在運行了如下代碼后，您就可以在http://localhost:7860處下載Llama模型版本和應用了。

python generate.py --base_model='llama' --prompt_type=llama2

無需添加自己的文件，您就可以將該應用當作普通聊天機器人使用。當然，您也可以上傳一些文件，根據文件內容進行提問。其兼容的文件格式包括：PDF、Excel、CSV、word、text、以及markdown等。上圖展示的是本地LLaMa模型根據VS Code文檔，來回答問題的截圖。

h2oGPT測試程序在我的16GB Mac上運行良好，不過它不如帶有付費GPT-4的ChatGPT。此外，如下圖所示，h2oGPT的用戶界面也提供了一個專家（Expert）選項卡，為專業用戶提供了大量配置、以及改進結果的選項。

在本地運行大語言模型的五種簡便方法

如果您希望對應用有更多的控制，并能夠選擇更多的模型，那么可以下載完整版的應用。其README提供了在Windows、macOS和Linux上安裝的不同說明。當然，您也要顧及有限的硬件。事實證明，我現有的GPU，不足以運行一個相當大的模型。

5.能與數據進行簡單但緩慢聊天的PrivateGPT

PrivateGPT可以讓您使用自然語言查詢自己的文檔，并獲得生成式AI的響應。該應用的文檔可以包括幾十種不同的格式。其README能夠保證“100%的私密，任何數據都不會離開您的運行環境。您可以在沒有互聯網連接的情況下，輸入文檔并提出問題。”

PrivateGPT會通過腳本來接收數據文件，將其分割成不同的塊，以創建“嵌入”（即：文本含義的數字表示），并將這些嵌入存儲在本地的Chrome向量中。當您提出問題時，應用就會搜索相關文檔，將其發送給LLM，以生成答案。

如果您熟悉Python、以及如何建立Python項目的話，您可以通過鏈接--https://github.com/imartinez/privateGPT，克隆一套完整的PrivateGPT庫，并在本地運行之。當然，如果您對Python不甚了解，則可以參考Iván Martínez在一次研討會上建立的簡化版項目，它的設置要簡單得多。其README 文件包含了詳細的說明。雖然該庫自帶的source_documents文件夾中包含了大量Penpot（譯者注：一款面向跨域團隊的開源設計和原型制作工具）文檔，但是您完全可以將其刪除掉，并添加自己的文檔。

不過，PrivateGPT的文檔也警告道，它并不適合用于生產環境。畢竟一旦它在本地運行時，速度相對較慢。

6.本地LLM的更多途徑

其實，在本地運行LLM的方法不止上述五種。不過其他桌面級應用往往需要從頭開始編寫腳本，并存在著不同程度的設置復雜性。

例如：PrivateGPT的衍生產品--LocalGPT就包含了更多的型號選項，并提供了詳細說明和操作視頻。雖然人們對其安裝和設置的簡單程度眾說紛紜，但是它與PrivateGPT一樣，在對應的文檔中也警告了“僅在CPU環境中運行速度會很慢”。

我試用過的另一款桌面應用是LM Studio。它不但提供了簡單易用的聊天界面，而且給用戶更多的模型選擇自主權。其中，Hugging Face Hub是LM Studio中模型的主要來源，它擁有大量可供下載的模型。

如下圖所示，LM Studio會提供一個漂亮、簡潔的界面。不過截至本文撰寫時，其用戶界面尚不能提供LLM的內置選項，以運行用戶自己的數據。

在本地運行大語言模型的五種簡便方法

正如其參考文檔提到的，它帶有一個內置的服務器，可以“作為OpenAI API的直接替代”，因此那些通過API調用OpenAI模型所編寫出的代碼，將能夠在您所選擇的本地模型上運行。

由于LM Studio的代碼并非由GitHub所提供，因此它也會與h2oGPT一樣，在Windows上安裝時，會彈出：“這是一款未經驗證的應用”的警告。

除了通過h2oGPT等應用，利用預建模（pre-built model）的下載界面，您也可以直接從Hugging Face處下載并運行各種模型。這是一個人工智能平臺和社區，其中包含了許多 LLM。此外，Hugging Face還提供了一些關于如何在本地安裝和運行可用模型的文檔，具體請參考--https://huggingface.co/docs/transformers/installation。

而另一種流行的方法是在LangChain中下載并在本地使用LLM。這是一個用于創建端到端生成式AI應用的框架。您既可以通過鏈接--https://www.infoworld.com/article/3705097/a-brief-guide-to-langchain-for-software-developers.html，了解LangChain的基礎知識；又可以通過https://python.langchain.com/docs/integrations/llms/huggingface_pipelines，查看有關Hugging Face本地管道的相關內容。

此外，OpenLLM也是另一個強大的獨立平臺，可以幫助開發者將基于LLM的應用部署到生產環境中。