日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

過去幾天有關“AI污染中文互聯網環境”的討論又重新熱鬧起來,這個話題也帶出了另一個AI“終極命題”:如果世界上絕大部分內容都依靠AI生成,屆時我們還能使用這些內容訓練出更“聰明”的AI大模型么?

先說結論:情況將變得非常困難且棘手。在目前為數不多但頗受認可的研究中,這種情況被稱為“遞歸的詛咒”:如果大模型的訓練高度依賴AIGC內容,將很容易出現“崩潰”的情形。

此話怎講?

雖然現在互聯網上能找到的文字大部分都是真人寫的,但不可否認的是,目前AIGC內容正在以非常快的速度出現在廣告營銷、流量資訊平臺以及各式各樣的數字載體中。從增量的角度來看,隨著大模型的應用在未來半年、一年里開花結果,AIGC內容如潮水一般涌入互聯網平臺只是時間問題。

科技的進步從來不是單方面的祝福,往往也會伴隨著詛咒。

正如溫室氣體,以及人類向海洋里排放的各種奇奇怪怪物質,互聯網的“海洋”也在面臨類似的威脅。

牛津大學、劍橋大學、倫敦帝國學院、多倫多大學等機構的研究人員近期在預印本平臺上發表的一篇論文,恰好就是論述這個話題的。

來源:arxiv

研究人員發現,在使用AIGC內容訓練模型時,會造成模型出現“不可逆的缺陷”,并且這種情況在變分自編碼器、高斯混合模型和大語言模型中都會出現。

同樣是內容,為何AIGC的內容會導致“模型崩潰”呢?

研究人員解釋稱:

模型崩潰是一種影響學習生成模型的退化過程,其中生成的數據最終會污染下一代模型的訓練集;使用被污染數據進行訓練,會導致模型誤解現實。這里還有兩種特殊情況:早期模型崩潰和晚期模型崩潰。在早期模型崩潰中,模型開始喪失關于分布尾部的信息;在晚期模型崩潰中,模型將原始分布的不同模式相互糾纏,并收斂到與原始模型相差甚遠的分布,通常方差非常小。

這個過程與災難性遺忘的過程不同,因為我們考慮的是隨時間推移的多個模型,這些模型不會忘記以前學習的數據,而是開始誤解他們認為的真實。

遭到AIGC內容干擾后喪失能力的模型,來源:論文

考慮到大多數人可能看不太懂這兩段話,這篇論文的作者之一,牛津大學的Ilia Shumailov接受媒體采訪時舉了一個AIGC圖片的例子:假設在訓練模型時,使用了100張狗狗的照片,里面有90只狗狗有黃色眼睛,還有10只有藍色眼睛。由于數據集中黃眼睛狗狗的數量占據絕大多數,那么這樣訓練出的模型中,藍眼睛狗狗實際的顏色會變得更加綠(黃加藍=綠)一些。如果有人從互聯網上抓取這樣生成的圖片,重復進行生成—抓取—訓練的過程,將會導致模型識別藍眼睛狗狗的能力最終消失。這種對信息的喪失或扭曲,就是模型崩潰。

引申開來,這也引發了另一層競爭:先行的GPT模型們,可能會堵住后來者開發更強大模型的路。或者說,想要“彎道超車”的后來者,需要花在可信賴數據上的時間和金錢,將遠遠超越領跑的這一批科技巨頭。

研究人員總結稱,訓練大語言模型的特質預示著“先行者優勢”的存在。這篇論文證明了使用AIGC語料訓練會導致分布改變,以及模型崩潰。為了確保模型在長期內學習持續進行,需要確保非AIGC語料的可及性。但目前為止,如何跟蹤和識別大模型生成內容的機制尚不明確,如果繼續大規模地從互聯網上爬取數據,訓練新版本的大模型將變得原來越困難。

編輯/范輝

分享到:
標簽:AIGC
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定