譯者 | 李睿
如今,很多企業高管都將人工智能視為未來發展方向,許多技術領導者也將ChatGPT視為人工智能的代名詞。但是AI target=_blank class=infotextkey>OpenAI的旗艦產品ChatGPT并不是唯一的大型語言模型——對于一些軟件項目或領域來說,ChatGPT甚至可能不是一個最好的選擇。幾乎每天都有新的競爭者出現。似乎每家科技公司都想構建下一代人工智能工具,這些工具帶來的好處和壞處取決于人們如何應用。
一些大型語言模型比其他一些模型好嗎?也許。但它們都有缺陷、怪癖、故障和弱點,使用的時間越長,這些缺陷就越明顯。生成式人工智能乍一看似乎很神奇,但隨著時間的推移,其怪異和不可預測的一面開始顯現。
衡量大型語言模型
由于大型語言模型的范圍和使用方式,科學地衡量生成式人工智能回答問題的質量是很困難的。數據科學家可以輸入數千甚至數百萬個測試問題并評估答案,但如果測試集只關注一種類型的問題,那么其輸出結果將會受到限制。咨詢像Hugging Face這樣的Open LLM排行榜類似的資源很有趣,但不一定準確。
如果說找到一種精確的方法來對大型語言模型進行衡量很困難,那么在它們之間切換變得越來越容易了。像OpenLLM或FastChat這樣的項目使各種大型語言模型的連接變得更簡單,盡管它們有不同的API和接口。開發人員可以將這些整合在一起,有時甚至可以并行運行這些模型。
構建大型語言模型的一個主要問題是成本。雖然人們很感興趣并且投資得到爆炸式增長,但構建一個大型語言模型可能需要數月甚至數年的時間。開發團隊首先收集訓練數據,然后采用成本高昂的硬件消耗大量電力推送數據。最后他們制作了大型語言模型,而如何盈利以及維持這項工作的最佳方式是一個不斷演變的問題。
一些企業正在嘗試開源他們開發的大型語言模型,而另一些企業則依賴具有自己計費模型的服務。開源大型語言模型可能是一份真正的禮物,但前提是能夠處理部署模型并保持其運行的工作。
以下是非ChatGPT的14種大型語言模型。它們可能是用戶運營項目所需要的大型語言模型,也可能不是。唯一知道的方法就是把提示發給它們,并仔細評估結果。
1.Llama
Facebook(如今更名為Meta)創建了這個基礎大型語言模型,然后將其發布,作為其聲明的“開放科學承諾”的一部分。任何人都可以下載Llama,并將其作為為特定應用創建更精細調整模型的基礎(Alpaca和Vicuna都是在Llama的基礎上構建的)。該模型還有四種不同的規模。只有70億個參數的較小版本在不太可能的地方使用。一名開發人員甚至聲稱Llama可以運行在只有4GB內存的Raspberry Pi上。
2.Alpaca
斯坦福大學的幾位研究人員采用了Meta公司的Llama 7B,采用一組模仿ChatGPT等指令遵循模型的提示對其進行訓練。這一微調產生了Alpaca 7B,這個大型語言模型將Llama LLM中編碼的知識開放為人們可以通過提問和給出指令來獲取的知識。據稱,其輕量級大型語言模型可以在價值不到600美元的硬件上運行。
Alpaca 7B的創建者正在分發訓練集和構建它的代碼,任何人都可以復制模型或從不同的集合創建新的內容。
3.Vicuna
Llama的另一個后代是來自LMSYS.org的Vicuna。Vicuna團隊從ShareGPT中收集了7萬個不同對話的訓練集,并特別注意創建多輪互動和指令跟隨功能。這個大型語言模型有Vicuna-13b或Vicuna-7b兩種版本,是最具價格競爭力的基本交互式聊天開放解決方案之一。
4.NodePad
并不是所有人都對大型語言模型生成“語言準確”文本的方式所吸引。NodePad的創建者認為,文本的質量往往會分散用戶對潛在事實的雙重檢查。具有美觀的用戶界面的大型語言模型往往無意中美化結果,使用戶更難以預測這些問題。NodePad旨在培養探索和創意,而不是生成用戶幾乎不會瀏覽的精致寫作樣本。這個大型語言模型的結果顯示為節點和連接,就像人們在許多“思維導圖工具”中看到的那樣,而不像憶經完成的寫作。用戶可以利用該模型的百科知識來獲得很好的想法,而不會在演示中迷失方向。
5.Orca
第一代大型語言模型在規模上取得了成功,隨著時間的推移變得越來越大。來自微軟公司研究團隊的Orca扭轉了這一趨勢。該模型僅使用130億個參數,使其能夠在普通機器上運行。Orca的開發人員通過增強訓練算法來使用“解釋痕跡”、“逐步的思考過程”和“指令”來實現這一壯舉。Orca并沒有僅僅要求人工智能從原始材料中學習,而是提供了一套專門用于教學的訓練集。換句話說,就像人類一樣,人工智能在沒有深入研究的情況下學習得更快。最初的結果很有希望,微軟團隊提供的基準測試表明,該模型的性能與更大的模型一樣好。
6.Jasper
Jasper的創造者并不想創造一個聰明的多面手,他們想要的是一臺專注于創造內容的聊天機器人。該系統提供了50多個模板,而不僅僅是一個開放式的聊天會話,這些模板是為特定任務設計的,例如為亞馬遜這樣的網站制作房地產清單或編寫產品功能。其付費版本專門針對那些希望創建具有一致基調的營銷文案的企業提供服務。
7.Claude
Anthropic把Claude塑造成一個樂于助人的助手,它可以處理企業的許多基于文本的業務(從研究到客戶服務),輸入提示,輸出答案。Anthropic允許長提示來鼓勵更復雜的指令,讓用戶對結果有更多的控制權。Anthropic目前提供兩個版本:一個是名為Claude-v1的完整模型,另一個是更便宜的簡化模型Claude Instant,后者的價格要便宜得多。第一種適用于需要更復雜、結構化推理的工作,而后者更快、更好地適用于分類和調節等簡單任務。
8.Cerebras
當專用硬件和通用模型共同發展時,最終可以得到一個非常快速和有效的解決方案。Cerebras公司為那些想在本地運行它的用戶提供了從小(1.11億個參數)到大(130億個參數)的各種Hugging Face大型語言模型。然而,許多人想要使用云計算服務,這些服務運行在Cerebras公司自己的集成處理器上,該處理器針對大型訓練集進行了優化。
9.Falcon
全尺寸Falcon-40b和較小的Falcon-7b是由阿聯酋的技術創新研究所(TII)建造的。他們在RefinedWeb上的大量通用示例上訓練了Falcon模型,重點是提高推理能力。然后,他們將其與Apache 2.0一起發布,使其成為可用于實驗的最開放和不受限制的大型語言模型之一。
10.ImageBind
許多人認為Meta公司是一家主導社交媒體的大公司,但該公司也是一家開源軟件開發商。隨著人們對人工智能的興趣日益濃厚,該公司開始分享自己的許多創新成果也就不足為奇了。ImageBind是一個旨在展示人工智能如何同時創建多種不同類型數據的項目;在這種情況下,包括文本、音頻和視頻。換句話說,如果允許的話,生成人工智能可以將整個想象的世界整合在一起。
11.Gorilla
人們可能聽說過很多關于使用生成式人工智能編寫代碼的事情。其結果往往表面上令人印象深刻,但仔細檢查就會發現存在嚴重缺陷。其語法可能是正確的,但是API調用都是錯誤的,或者它們甚至可能指向一個不存在的函數。Gorilla是一個大型語言模型,它的設計是為了更好地處理編程接口。它的創建者從Llama開始,然后對其進行微調,重點關注直接從文檔中截取的更深層次的編程細節。Gorilla的團隊還提供了自己的以API為中心的測試成功基準集。對于希望依靠人工智能進行編碼協助的程序員來說,這是一個重要的補充。
12.Ora.ai
Ora.ai是一個允許用戶創建針對特定任務進行優化的目標聊天機器人的系統。LibrarianGPT嘗試用一本書中的段落來回答任何問題。例如,聊天機器人可以從Carl Saga教授的所有著作中汲取靈感。人們可以創建自己的聊天機器人,也可以使用其他人已經創建的數百個聊天機器人中的一個。
13.AgentGPT
另一個將應用程序所需的所有代碼整合在一起的工具是AgentGPT。它的設計目的是創建代理,這些代理可以被派去處理諸如計劃度假或編寫某種游戲代碼之類的工作。大部分技術棧的源代碼都可以在GPL3.0下獲得。還有一個正在運行的版本作為服務提供。
14.FrugalGPT
FrugalGPT 并不是一個不同的模型,而是一種尋找價格更低的模型來回答特定問題的謹慎策略。FrugalGPT的研究人員認識到,回答許多問題不需要更大、更昂貴的模型。他們的算法從最簡單的開始,在一系列大型語言模型中逐級移動,直到找到一個更好的答案。研究人員的實驗表明,這種謹慎的方法可以節省98%的成本,因為許多問題實際上并不需要采用復雜的模型。
原文標題:14 LLMs that aren't ChatGPT,作者:Peter Wayner