自從 OpenAI 發布 ChatGPT 后,最近幾個月聊天機器人熱度不減。
雖然 ChatGPT 功能強大,但 OpenAI 幾乎不可能將其開源。不少人都在做開源方面的努力,比如前段時間 Meta 開源的 LLaMA。其是一系列模型的總稱,參數量從 70 億到 650 億不等,其中,130 億參數的 LLaMA 模型「在大多數基準上」可以勝過參數量達 1750 億的 GPT-3。
LLaMA 的開源可是利好眾多研究者,比如斯坦福在 LLaMA 的基礎上加入指令微調(instruct tuning),訓練了一個名為 Alpaca(羊駝)的 70 億參數新模型(基于 LLaMA 7B)。結果顯示,只有 7B 參數的輕量級模型 Alpaca 性能可媲美 GPT-3.5 這樣的超大規模語言模型。
又比如,我們接下來要介紹的這個模型 GPT4All,也是一種基于 LLaMA 的新型 7B 語言模型。項目上線兩天,Star 量已經突破 7.8k。
項目地址:https://Github.com/nomic-ai/gpt4all
簡單來講,GPT4All 在 GPT-3.5-Turbo 的 800k 條數據上進行訓練,包括文字問題、故事描述、多輪對話和代碼。
根據項目顯示,M1 mac、windows 等環境都能運行。
我們先來看看效果。如下圖所示,用戶可以和 GPT4All 進行無障礙交流,比如詢問該模型:「我可以在筆記本上運行大型語言模型嗎?」GPT4All 回答是:「是的,你可以使用筆記本來訓練和測試神經網絡或其他自然語言(如英語或中文)的機器學習模型。重要的是,你需要足夠可用的內存 (RAM) 來適應這些模型的大小……」
接下來,如果你不清楚到底需要多少內存,你還可以繼續詢問 GPT4All,然后它給出回答。從結果來看,GPT4All 進行多輪對話的能力還是很強的。
在 M1 Mac 上的實時采樣
有人將這項研究稱為「改變游戲規則,有了 GPT4All 的加持,現在在 MacBook 上本地就能運行 GPT。」
與 GPT-4 相似的是,GPT4All 也提供了一份「技術報告」。
技術報告地址:https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf
這份初步的技術報告簡要描述了 GPT4All 的搭建細節。研究者公開了收集的數據、數據整理程序、訓練代碼和最終的模型權重,以促進開放研究和可重復性,此外還發布了模型的量化 4 位(quantized 4-bit)版本,這意味著幾乎任何人都可以在 CPU 上運行該模型。
接下來,讓我們看看這份報告中寫了什么。
GPT4All 技術報告
1、數據收集和整理
在 2023 年 3 月 20 日至 2023 年 3 月 26 日期間,研究者使用 GPT-3.5-Turbo OpenAI API 收集了大約 100 萬對 prompt 回答。
首先,研究者通過利用三個公開可用的數據集來收集不同的問題 /prompt 樣本:
- LAION OIG 的統一 chip2 子集
- Stackoverflow Questions 的一個隨機子樣本集 Coding questions
- Bigscience/P3 子樣本集進行指令調優
參考斯坦福大學 Alpaca 項目 (Taori et al., 2023),研究者對數據準備和整理給予了大量關注。在收集了最初的 prompt 生成對的數據集后,他們將數據加載到 Atlas 進行整理和清理,刪除了所有 GPT-3.5-Turbo 未能響應 prompt 并產生畸形輸出的樣本。這使得樣本總數減少到 806199 個高質量的 prompt - 生成對。接下來,研究者從最終的訓練數據集中刪除了整個 Bigscience/P3 子集,因為它的輸出多樣性非常低。P3 包含許多同質化的 prompt,這些 prompt 從 GPT-3.5-Turbo 中產生了簡短而同質化的反應。
這種排除法產生了一個包含 437,605 個 prompt - 生成對的最終子集,如圖 2 所示。
模型訓練
研究者在 LLaMA 7B (Touvron et al., 2023) 的一個實例中將幾個模型進行微調。他們最初的公開版本相關的模型是用 LoRA (Hu et al., 2021) 在 437605 個后處理的例子上以 4 個 epoch 訓練的。詳細的模型超參數和訓練代碼可以在相關的資源庫和模型訓練日志中找到。
可重復性
研究者發布了所有的數據(包括未使用的 P3 generations)、訓練代碼和模型權重,供社區進行復現。感興趣的研究者可以在 Git 存儲庫中找到最新的數據、訓練細節和檢查點。
成本
研究者大概用了四天的時間制作這些模型,GPU 成本為 800 美元(從 Lambda 實驗室和 Paperspace 租的,其中包括幾次失敗的訓練),此外還有 500 美元的 OpenAI API 費用。
最終發布的模型 gpt4all-lora 可以在 Lambda 實驗室的 DGX A100 8x 80GB 上用大約 8 小時訓練完成,總成本為 100 美元。
這個模型可以在普通筆記本上運行,真就像網友說的「除了電費之外,沒有任何成本。」
評估
研究者使用 SelfInstruct 論文 (Wang et al., 2022) 中的人類評估數據對該模型進行了初步評估。報告還對比了該模型與已知最好的公開的 alpaca-lora 模型(該模型由 huggingface 的用戶 chainyo 提供)的 ground truth 困惑度。他們發現,所有的模型在少數任務上都有非常大的困惑度,并且報告的困惑度最大為 100。與 Alpaca 相比,在這個收集的數據集上進行微調的模型在 Self-Instruct 評估中表現出了更低的困惑度。研究者表示,這個評估不是詳盡的,仍存在進一步的評估空間 —— 他們歡迎讀者在本地 CPU 上運行該模型(文件見 Github),并對它的能力有一個定性的認識。
最后,需要注意的是,作者公布了數據和訓練細節,希望它能加速開放的 LLM 研究,特別是在對齊和可解釋性領域。GPT4All 模型的權重和數據僅用于研究目的,并獲得許可,禁止任何商業使用。GPT4All 是基于 LLaMA 的,LLaMA 具有非商業許可。助理數據是從 OpenAI 的 GPT-3.5-Turbo 收集的,其使用條款禁止開發與 OpenAI 進行商業競爭的模型。