(ChinaZ.com)6月14日 消息:隨著越來越多的人使用 AI 來制作和發布內容,一個明顯的問題出現了:當 AI 生成的內容在互聯網上激增并且 AI 模型開始使用AI生成的內容進行訓練,會發生什么?
來自英國和加拿大的一組研究人員已經研究了這個問題,并且最近在開放獲取期刊 arXiv 上發表了一篇相關論文。他們的發現令當前的生成式 AI 技術及其未來令人擔憂:“我們發現在訓練中使用模型生成的內容會導致生成的模型出現不可逆轉的缺陷。”
研究人員專門研究了文本到文本和圖像到圖像 AI 生成模型的概率分布,得出結論:“從其他模型生成的數據中學習會導致模型崩潰——一個退化過程,隨著時間的推移,模型會忘記真正的底層數據分布……這個過程是不可避免的,即使對于具有近乎理想的長期學習條件的情況也是如此。”
“隨著時間的推移,生成數據中的錯誤會復合并最終迫使從生成數據中學習的模型進一步錯誤地感知現實,我們驚訝地觀察到模型崩潰發生的速度有多快:模型可以迅速忘記他們最初從中學習的大部分原始數據。”該論文的主要作者之一 Ilia Shumailov解釋道。
換句話說:當 AI 訓練模型接觸到更多 AI 生成的數據時,它的性能會隨著時間的推移而變差,在其生成的響應和內容中產生更多錯誤,并在其響應中產生更少的非錯誤多樣性。
“模型崩潰”是如何發生的
本質上,當 AI 模型生成的數據最終污染了后續模型的訓練集時,就會發生模型崩潰。
Shumailov 通過一個假設場景說明了這個問題,其中機器學習模型在包含100只貓的圖片的數據集上進行訓練——其中10只貓的皮毛是藍色的,90只貓的皮毛是黃色的。該模型了解到黃貓更普遍,被要求生成新數據時返回一些綠貓結果。隨著時間的推移,藍色毛皮的原始特征會在連續的訓練周期中逐漸消失,從藍色變成綠色,最后變成黃色。這種漸進的扭曲和少數數據特征的最終丟失就是模型崩潰。為防止這種情況,重要的是要確保少數群體在數據集中的公平代表性,無論是在數量上還是在對獨特特征的準確描述方面。
AI 生成數據的這種“污染”導致模型對現實產生了扭曲的感知。即使研究人員訓練模型不要產生過多的重復響應,他們發現模型崩潰仍然會發生,因為模型會開始編造錯誤的響應以避免過于頻繁地重復數據。
“還有許多其他方面會導致更嚴重的影響,例如基于性別、種族或其他敏感屬性的歧視,”Shumailov 說,特別是如果生成式人工智能隨著時間的推移學會在其反應中產生一個種族,而“忘記”他人存在。
重要的是要注意,這種現象不同于“災難性遺忘”,模型會丟失以前學到的信息。相比之下,模型崩潰涉及模型根據他們強化的信念誤解現實。
這篇論文背后的研究人員發現,即使10% 的原始人類創作數據被用來訓練后代的模型,“模型崩潰仍然會發生,只是不會那么快”Shumailov說道。
幸運的是,即使使用現有的轉換器和 LLM,也有一些方法可以避免模型崩潰。
研究人員強調了兩種具體方式。第一個是保留原始的完全或名義上由人工生成的數據集的副本,并避免與 AI 生成的數據相混淆。然后,模型可以根據這些數據定期重新訓練,或者從頭開始用它完全刷新。
避免響應質量下降并減少 AI 模型中不需要的錯誤或重復的第二種方法是將新的、干凈的、人類生成的數據集重新引入到他們的訓練中。
然而,正如研究人員指出的那樣,這需要內容制作者或人工智能公司采用某種大規模標簽機制或努力來區分人工智能生成的內容和人類生成的內容。
“為了阻止模型崩潰,我們需要確保原始數據中的少數群體在后續數據集中得到公平的代表,”Shumailov 說道。
這些發現對人工智能領域具有重要意義,強調需要改進方法以隨著時間的推移保持生成模型的完整性。他們強調了未經檢查的生成過程的風險,并可能指導未來的研究制定策略來防止或管理模型崩潰。
很明顯,模型崩潰是 ML 的一個問題,必須采取一些措施來確保生成 AI 繼續改進。