久久久久久久网,亚洲AV无码精品漫画在线观看,91麻豆精品91久久久久久清纯

現在，生成式人工智能模型變得越來越大了，所以更大就意味著更好嗎？

非也。現在，一些科學家提議，應該采用更精簡、更節能的系統。

文章地址：https://www.nature.com/articles/d41586-023-00641-w

搞不定數學的語言模型

最近技術行業的寵兒ChatGPT，在面對需要推理才能回答的數學問題時，表現往往不佳。

比如這個問題「平行于y = 4 x + 6的直線穿過（5, 10）。這條線與y軸的交點的y坐標是多少？」，它往往答不對。

在一項針對推理能力的早期測試中，ChatGPT 在回答中學水平的MATH數據集樣本時，得分僅為26（%）。

這當然在我們的意料之中，給定輸入文本后，ChatGPT只是根據訓練數據集的單詞、符號和句子的統計規律，生成新文本。

僅僅學一下語言模式，當然不可能讓語言模型學會模仿數學推理。

但其實，早在2022年6月，谷歌創建的名為Minerva的大語言模型就已經打破了這個「魔咒」。

Minerva在MATH數據集(2)中的問題得分為50% ，這一結果令研究人員大為震驚。

Minerva答對了一道「MATH」數據集里的中學數學問題

微軟研究院的的機器學習專家Sébastien Bubeck說，圈內人都震驚了，對此議論紛紛。

Minerva的優勢，當然是因為它接受過數學文本的培訓。

但谷歌的研究提出了該模型表現如此出色的另一個重要原因——龐大的規模。它的大小大約是ChatGPT的三倍。

Minerva 的結果暗示了一些研究人員長期以來一直懷疑的事情：訓練更大的LLM并為它們提供更多數據，可以使它們僅通過模式識別，就能解決本應需要推理的任務。

如果真的是這樣，研究人員表示，這種「越大越好」的策略可能會為強大的人工智能提供一條途徑。

但這個論點顯然值得懷疑。

LLM仍然會犯明顯的錯誤，一些科學家認為，更大的模型只是在回答訓練數據相關范圍內的查詢上變得更好，并不能獲得回答全新問題的能力。

這場辯論現在正在人工智能的前沿如火如荼地展開。

商業公司已經看到，使用更大的AI模型，就可以獲得更好的結果，因此他們正在推出越來越大的LLM——每個LLM 都需要花費數百萬美元來訓練和運行。

但是這些模型有很大的缺點。除了它們的輸出可能會不可信、因而加劇錯誤信息的傳播之外，它們價格實在太昂貴了，并且會消耗大量的能量。

評者認為，大型LLM永遠無法模仿或獲得使他們能始終如一地回答推理問題的技能。

相反，一些科學家說，更小、更節能的AI才能取得進步，他們的觀點部分受到了大腦學習和建立聯系方式的啟發。

模型更大就更好嗎？

ChatGPT和Minerva等大語言模型是巨大的分層排列的計算單元網絡（也稱為人工神經元）。

LLM 的大小是根據它有多少參數來衡量的，而參數量描述了神經元之間連接強度的可調值。

訓練這樣的網絡，就需要要求它預測已知句子的掩碼部分并調整這些參數，以便算法下次做得更好。

對數十億個人類書寫的句子重復執行這個操作，神經網絡就會學習模擬人類書寫語言方式的內部表征。

在這個階段，LLM 被認為是經過預訓練的：它的參數捕獲了它在訓練期間看到的書面語言的統計結構，包括文本中的所有事實、偏見和錯誤。然后可以根據專門數據對它「微調」。

例如，為了制作Minerva，研究人員從谷歌的Pathways Language Model (PaLM) 入手，該模型擁有5400億個參數，并在7800億個token的數據集上進行了預訓練。

token可以是一個詞、數字或一些信息單元；在PaLM的例子中，token是從英語和多語言網絡文檔、書籍和代碼中收集的。Minerva是PaLM對來自科學論文和數學網頁的數百億個token進行微調的結果。

Minerva可以回答「小于520的30的最大倍數是多少」這樣的問題。

LLM似乎在按步驟思考，但它所做的只是將問題轉化為tokne序列，生成統計上合理的下一個token，將其附加到原始序列，生成另一個token，等等。這個過程就被稱為推理。

谷歌研究人員使用了具有80億、620億和5400億參數的底層預訓練PaLM模型，對Minerva的三種尺寸進行了微調。Minerva的性能隨著規模的擴大而提高。

在整個MATH數據集上，最小模型的準確率為25%，中型模型達到43%，最大模型突破50%大關。

最大的模型也使用了最少的微調數據——它只對260億個token進行了微調，而最小的模型則微調了1640億個token。

但是最大的模型花了一個月的時間進行微調，專用硬件的算力是最小模型所用算力的八倍，而最小模型的微調時間僅為兩周。

理想情況下，最大的模型應該在更多token上進行微調。谷歌研究院Minerva團隊的成員Ethan Dyer說，這本可以帶來更好的表現。但團隊認為計算費用不可行。

規模化效應

最大的Minerva模型表現最好，這與Scaling Law（規模化效應）的研究是一致的——這些規律決定了性能如何隨著模型大小的增加而提高。

2020年的一項研究表明，模型在給定以下三項之一時表現更好：更多參數、更多訓練數據或更多「計算」（訓練期間執行的計算操作數）。

性能根據冪律縮放，這意味著它會隨著參數量的增加而提高。

然而，研究人員并不清楚其中的原因。「這些規律純粹是經驗主義的，」加拿大蒙特利爾大學、 Mila- Quebec人工智能研究所的計算機科學家Irina Rish說。

為了獲得最佳結果，2020年的研究建議，隨著訓練數據增加一倍，模型大小應增加五倍。去年的工作對此略有修改。

今年3月，DeepMind認為，最好同時擴大模型規模和訓練數據，而且在更多數據上訓練的較小模型比在較少數據上訓練的較大模型表現更好。

例如，DeepMind的Chinchilla模型有700億個參數，并在1.4萬億個token上進行了訓練，而2800億參數的Gopher模型在3000億個token上進行了訓練。在隨后的評估中，Chinchilla的表現優于Gopher。

在2月，Meta的科學家基于這一概念構建了名為LLaMA的小參數模型，該模型訓練了多達1.4萬億個token。

研究人員表示，LLaMA的130億參數版本優于ChatGPT的前身GPT-3（1750 億參數），而650億參數的版本比起 Chinchilla甚至PaLM，都更有競爭力。

去年10月，蒙特利爾麥吉爾大學的Ethan Caballero與Rish等人報告稱，他們發現了規模與性能之間更復雜的關系——在某些情況下，多重冪律可以控制性能如何隨模型大小變化。

例如，在一個擬合一般方程的假設場景中，性能首先逐漸提高，然后隨著模型的大小而更快地提高，但隨著參數數量的繼續增加，性能會略有下降，然后再次增加。這種復雜關系的特征取決于每個模型的細節及其訓練方式。

最終，研究人員希望能夠在任何特定的LLM擴大規模時提前預測這一點。

一項單獨的理論發現也支持更大模型的驅動——機器學習的「魯棒性法則」，這個法則由Bubeck和他的同事在2021年提出。

如果一個模型的答案保持一致，盡管它的輸入有小的擾動，那么這個模型就是穩健的。

而Bubeck和他的同事從數學上證明，增加模型中的參數數量會提高穩健性，從而提高泛化能力。

Bubeck說，規律證明擴大規模對于泛化是必要的，但還不夠。盡管如此，它仍被用來證明轉向更大模型的合理。「我認為這是一件合理的事情。」

Minerva還利用了一項名為思維鏈提示的關鍵創新。用戶在問題前加上文本前綴，包括幾個問題和解決方案的示例，以及導致答案的推理（這就是典型的思維鏈）。

在推理過程中，LLM會從這個上下文中獲取線索，并提供一個看起來像推理的循序漸進的答案。

這不需要更新模型的參數，因此不涉及微調所需的額外計算能力。

僅在具有超過1000億個參數的LLM中，才會出現對思維鏈提示做出響應的能力。

谷歌研究院的Blaise Agüera y Arcas說，這些發現幫助更大的模型根據經驗縮放定律進行改進。「更大的模型會越來越好。」

合理的擔憂

谷歌的人工智能研究員François Chollet是懷疑論者之一，他們認為無論LLM變得多大，他們都永遠無法具備足夠好的推理（或模仿推理）能力來可靠地解決新問題。

他說，LLM似乎只通過使用它以前遇到過的模板來推理，無論是在訓練數據中還是在提示中。「它不能即時理解它以前沒有見過的東西。」

或許，LLM能做的最好的事，就是吸收大量的訓練數據，以至于語言的統計模式本身就可以讓他們用非常接近看到答案的方式，來回答問題。

然而，Agüera y Arcas認為，LLM似乎確實獲得了一些他們沒有專門培訓的能力，這些能力令人驚訝。

尤其是顯示一個人是否具有所謂心智理論的測試，這個測試能夠理論化或衡量他人的心理狀態。

比如，愛麗絲把眼鏡放在抽屜里，然后鮑勃在愛麗絲不知道的情況下將眼鏡藏在墊子下。愛麗絲會先去哪里找她的眼鏡？

問一個孩子這個問題，是為了測試他們是否理解愛麗絲有自己的信念，這些信念可能與孩子所知道的不一致。

Agüera y Arcas在他對谷歌的另一個LLM LaMDA的測試中，發現LaMDA在這類更擴展的對話中，會做出正確的響應。

對他來說，這表明LLM有能力在內部模擬他人的意圖。

Agüera y Arcas說：「這些除了預測序列什么都不做的模型，已經開發了一系列非凡的能力，包括心智理論。

但他承認，這些模型容易出錯，而且他也不確定單獨改變規模是否足以進行可靠的推理，盡管這似乎有必要。

谷歌研究院的Blaise Agüera y Arcas在博客中記錄了他與LaMDA的對話。Agüera y Arcas認為這是一次令人印象深刻的交流，LaMDA似乎能夠始終如一地模擬故事中兩個對話者知道和不知道的事情，很明顯，這就是對心智理論的模仿。

然而，Chollet說，即使LLM得到了正確的答案，也沒有涉及理解。

「當你稍微探究一下，就會立即發現它是空的。ChatGPT沒有它所談論內容的模型。就仿佛你正在觀看木偶戲，并且相信木偶還活著。」

到目前為止，LLM仍然會犯人類永遠不會犯的荒謬錯誤，Melanie Mitchell說。她在Santa Fe研究所研究人工智能系統中的概念抽象和類比。

這讓人們很擔憂，在沒有護欄的情況下將LLM釋放到社會中是否安全。

Mitchell 補充說，對于LLM是否能夠解決真正新的、未見過的問題，有一個難題，即我們沒法全面測試這種能力。

「我們目前的基準還不夠，」她說。「它們沒有系統地探索事物。我們還不知道該怎么做。」

Chollet 提倡他設計的抽象推理測試，它被稱為抽象推理語料庫。

因規模而生的問題

但問題是，訓練大型語言模型所涉及的數據集、計算能力和費用限制了它們的發展。目前來看，只有擁有超大計算資源的公司才能做到。

比如，OpenAI在GPT-3的訓練上，預計花費了超過400萬美元，而為了維持ChatGPT的運轉，每個月可能還要花費數百萬美元。

于是，各國政府紛紛開始介入，希望由此擴大自己在這個領域的優勢。

去年6月，一個由大約1000名學術志愿者組成的國際團隊，在法國政府、Hugging Face和其他機構的資助下，用價值700萬美元的計算時間，訓練了參數為1760億的BLOOM模型。

而在11月，美國能源部也將自己的超級計算授權給了一個研究大模型項目。據稱，團隊計劃訓練一個類似Chinchilla的700億參數的模型。

不過，無論是誰來訓練，LLM對電力的消耗都是不容小覷的。

谷歌表示，在大約兩個月的時間里，訓練PaLM花費了大約3.4千兆瓦時，這相當于大約300個美國家庭一年的能源消耗。

雖然谷歌宣稱自己用的89%就是清潔能源，但對整個行業的調查顯示，大多數的訓練都是使用主要由化石燃料供電的電網。

更小，更聰明？

從這個角度來看，研究人員迫切地需要減少LLM的能源消耗——使神經網絡更小、更有效，也許還能更聰明。

除了訓練LLM的能源成本（雖然很可觀，但也是一次性的），推理所需的能源，會隨著用戶數量的增加而激增。比如，BLOOM模型在谷歌云平臺上部署的18天里，共回答了230,768次查詢，平均功率為1,664瓦。

相比而言，我們自己的大腦比任何LLM都要復雜和大得多，有860億個神經元和大約100萬億個突觸連接，但功率只有大約20到50瓦。

于是，一些研究人員便希望通過對大腦的模仿來實現讓模型更小、更智能、更高效的愿景。

從本質上講，LLM是「前饋」網絡，這意味著信息是單向流動的：從輸入端，通過LLM的各層，到輸出端。

但大腦卻并非如此。比如，在人類的視覺系統中，神經元除了會將接收到的信息正向傳輸進大腦外，還有反饋連接，使信息在神經元之間以相反的方向傳遞。在這其中，反饋連接的數量可能是前饋連接的十倍。

在人工神經網絡中，遞歸神經網絡（RNN）也同時包含了前饋和反饋連接。與只有前饋網絡的LLM不同，RNN可以辨別出數據中隨時間變化的模式。不過，RNN很難訓練，而且速度很慢，因此很難將其擴展到LLM所具有的規模上。

目前，一些使用小型數據集的研究已經表明，具有脈沖神經元的RNN可以勝過標準的RNN，而且在理論上，計算效率也要高出三個數量級。

然而，只要這種脈沖網絡是在軟件中模擬的，它們就不能真正地實現效率的提升（因為模擬它們的硬件仍然會消耗能量）。

節能的大模型

與此同時，研究人員正在試驗不同的方法，使現有的LLM更加節能。

2021年12月，DeepMind提出了基于檢索的語言模型框架Retro。

Retro主要模仿大腦在學習時不光利用當下的知識，還會利用到記憶的檢索這一機制。其框架是先準備一個大規模的文本數據集（充當大腦的記憶），通過kNN算法找到輸入句子的n個最近鄰句子（檢索記憶）。

把輸入的句子和檢索到的句子經過Transformer編碼后，再進行Cross-Attention，這樣模型就可以同時利用輸入句子中的信息和記憶信息來完成各種NLP任務。

以往模型的超大參數量主要是為了保存住訓練數據中的信息，當使用這種基于檢索的框架后，模型的參數量不用特別大就可以包含更多的文本信息，自然而然就會加快模型的運行速度，并且還不會損失太多性能。

這種方式還能節省模型訓練時的電費，環保女孩看了都點贊！

實驗結果顯示，一個75億個參數的大語言模型，加上一個2萬億個token的數據庫，可以勝過參數多25倍的模型。研究人員寫道，這是一個「在我們尋求建立更強大的語言模型時，比原始參數縮放更有效的方法」。

在同一個月，谷歌的研究人員提出了另一種在規模上提高能源效率的方法。

這個擁有1.2萬億參數的稀疏通用語言模型GLaM，在內部有著64個較小的神經網絡。

在推理過程中，模型只使用兩個網絡來完成任務。也就是說，只用了一萬多億個參數中的大約8%。

谷歌表示，GLaM使用的計算資源與訓練GPT-3所需的相同，但由于訓練軟件和硬件的改進，能耗只有后者的1/3。而推理所需的計算資源，則是GPT-3的一半。此外，在相同數量的數據上進行訓練時，GLaM的表現也要優于GPT-3。

然而，為了進一步的改進，即使是這些更節能的LLM似乎也注定要變得更大，使用更多的數據和計算。

參考資料：?

https://www.nature.com/articles/d41586-023-00641-w

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

Nature：AI模型越大越好嗎?

搞不定數學的語言模型

模型更大就更好嗎？

規模化效應

合理的擔憂

因規模而生的問題

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03