【ITBEAR科技資訊】5月29日消息,開源語言模型的發展取得了令人矚目的進步。然而,對于這些開源模型是否能夠與來自OpenAI、谷歌和其他公司的經過精心訓練的語言模型競爭,存在一些爭議。
據先前報道,使用Alpaca Formula訓練的開源語言模型幾乎不需要耗費大量時間和資源,就能夠達到類似于ChatGPT的水平。Alpaca Formula是指開發者利用ChatGPT生成的訓練數據來微調meta語言模型LLaMA。通過使用這些數據,LLaMA模型能夠在短時間內學習生成與ChatGPT相似的輸出,且所需計算資源較少。
然而,最近伯克利大學的研究人員對此進行了不同的研究。他們使用Alpaca Formula對LLaMA和GPT-2的一些基礎模型進行了實驗,并請人工評估這些結果,同時還使用GPT-4進行自動評估。
初步結果與之前的開發者所得出的結論相似:改進過的模仿模型在展示模仿數據的任務中的性能遠超基礎模型,與ChatGPT相當。
然而,更加有針對性的自動評估顯示,這些模仿模型實際上只在已見過的模仿數據的任務中表現良好。在其他領域中,與GPT-4相比,仍然存在明顯的性能差距。這是因為這些基礎模型在廣泛的預訓練過程中獲取了大部分功能,而非微調階段所獲得的。
研究人員指出,進行這種評估的工作者常常在短時間內對人工智能內容進行評估,而缺乏相關專業知識,容易被誤導。
值得注意的是,OpenAI的研究員約翰舒爾曼最近批評了使用ChatGPT數據來微調開源基礎語言模型的做法。他指出,如果微調數據集中包含了原始模型中未包含的知識,那么這些模型可能會產生更多不準確的內容。
綜上所述,雖然開源語言模型的進步不容忽視,但在與OpenAI、谷歌和其他公司訓練有素的語言模型進行競爭時,仍然存在一定的差距。對于開源模型的評估需要更加準確和全面,以充分了解其性能和局限性。