一脱二亲国产精品,秋霞理论夫妻黄色一级片,玖玖草在线观看一区二区三区

過去幾天有關“AI污染中文互聯網環境”的討論又重新熱鬧起來，這個話題也帶出了另一個AI“終極命題”：如果世界上絕大部分內容都依靠AI生成，屆時我們還能使用這些內容訓練出更“聰明”的AI大模型么？

先說結論：情況將變得非常困難且棘手。在目前為數不多但頗受認可的研究中，這種情況被稱為“遞歸的詛咒”：如果大模型的訓練高度依賴AIGC內容，將很容易出現“崩潰”的情形。

此話怎講？

雖然現在互聯網上能找到的文字大部分都是真人寫的，但不可否認的是，目前AIGC內容正在以非常快的速度出現在廣告營銷、流量資訊平臺以及各式各樣的數字載體中。從增量的角度來看，隨著大模型的應用在未來半年、一年里開花結果，AIGC內容如潮水一般涌入互聯網平臺只是時間問題。

科技的進步從來不是單方面的祝福，往往也會伴隨著詛咒。

正如溫室氣體，以及人類向海洋里排放的各種奇奇怪怪物質，互聯網的“海洋”也在面臨類似的威脅。

牛津大學、劍橋大學、倫敦帝國學院、多倫多大學等機構的研究人員近期在預印本平臺上發表的一篇論文，恰好就是論述這個話題的。

來源：arxiv

研究人員發現，在使用AIGC內容訓練模型時，會造成模型出現“不可逆的缺陷”，并且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會出現。

同樣是內容，為何AIGC的內容會導致“模型崩潰”呢？

研究人員解釋稱：

模型崩潰是一種影響學習生成模型的退化過程，其中生成的數據最終會污染下一代模型的訓練集；使用被污染數據進行訓練，會導致模型誤解現實。這里還有兩種特殊情況：早期模型崩潰和晚期模型崩潰。在早期模型崩潰中，模型開始喪失關于分布尾部的信息；在晚期模型崩潰中，模型將原始分布的不同模式相互糾纏，并收斂到與原始模型相差甚遠的分布，通常方差非常小。

這個過程與災難性遺忘的過程不同，因為我們考慮的是隨時間推移的多個模型，這些模型不會忘記以前學習的數據，而是開始誤解他們認為的真實。

遭到AIGC內容干擾后喪失能力的模型，來源：論文

考慮到大多數人可能看不太懂這兩段話，這篇論文的作者之一，牛津大學的Ilia Shumailov接受媒體采訪時舉了一個AIGC圖片的例子：假設在訓練模型時，使用了100張狗狗的照片，里面有90只狗狗有黃色眼睛，還有10只有藍色眼睛。由于數據集中黃眼睛狗狗的數量占據絕大多數，那么這樣訓練出的模型中，藍眼睛狗狗實際的顏色會變得更加綠（黃加藍=綠）一些。如果有人從互聯網上抓取這樣生成的圖片，重復進行生成—抓取—訓練的過程，將會導致模型識別藍眼睛狗狗的能力最終消失。這種對信息的喪失或扭曲，就是模型崩潰。

引申開來，這也引發了另一層競爭：先行的GPT模型們，可能會堵住后來者開發更強大模型的路。或者說，想要“彎道超車”的后來者，需要花在可信賴數據上的時間和金錢，將遠遠超越領跑的這一批科技巨頭。

研究人員總結稱，訓練大語言模型的特質預示著“先行者優勢”的存在。這篇論文證明了使用AIGC語料訓練會導致分布改變，以及模型崩潰。為了確保模型在長期內學習持續進行，需要確保非AIGC語料的可及性。但目前為止，如何跟蹤和識別大模型生成內容的機制尚不明確，如果繼續大規模地從互聯網上爬取數據，訓練新版本的大模型將變得原來越困難。

編輯/范輝