日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

【ITBEAR科技資訊】7月18日消息,比大更大的AI語言模型成為當(dāng)今AI領(lǐng)域的熱門話題,似乎再?zèng)]有什么比它更為恰當(dāng)?shù)男稳萘恕?/p>

大型模型的參數(shù)規(guī)模不斷擴(kuò)大,從十億、百億到千億,訓(xùn)練AI所需的數(shù)據(jù)量也呈指數(shù)級(jí)增長(zhǎng)。

以O(shè)penAI的GPT為例,從GPT-1到GPT-3,訓(xùn)練數(shù)據(jù)集的規(guī)模從4.5GB急劇增長(zhǎng)至570GB。

不久前,由Databricks舉辦的Data+AI大會(huì)上,a16z創(chuàng)始人馬克·安德森認(rèn)為,互聯(lián)網(wǎng)在過去二十多年積累的海量數(shù)據(jù)是新一輪AI浪潮興起的重要原因,因?yàn)檫@些數(shù)據(jù)為AI訓(xùn)練提供了可用的素材。

然而,盡管網(wǎng)民在網(wǎng)絡(luò)上留下了大量有用或無用的數(shù)據(jù),對(duì)于AI訓(xùn)練來說,這些數(shù)據(jù)可能即將見底。

人工智能研究和預(yù)測(cè)組織Epoch發(fā)表的一篇論文預(yù)測(cè),高質(zhì)量的文本數(shù)據(jù)將在2023年至2027年之間消耗殆盡。

盡管研究團(tuán)隊(duì)承認(rèn)分析方法存在嚴(yán)重局限性,模型的不準(zhǔn)確性較高,但很難否認(rèn)AI對(duì)數(shù)據(jù)集的消耗速度令人擔(dān)憂。

當(dāng)人類數(shù)據(jù)用盡后,AI訓(xùn)練不可避免地將依賴于AI自身生成的內(nèi)容。然而,這種"內(nèi)循環(huán)"會(huì)帶來巨大挑戰(zhàn)。

最近,來自劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)等高校的研究人員發(fā)表的論文指出,使用AI生成的內(nèi)容來訓(xùn)練AI會(huì)導(dǎo)致新模型的崩潰。

那么,為什么使用"生成數(shù)據(jù)"來訓(xùn)練AI會(huì)導(dǎo)致模型崩潰?是否還有拯救的辦法呢?

研究人員在名為"遞歸的詛咒:用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘"的論文中指出,"模型崩潰"是幾代模型退化的過程。

在早期的模型崩潰中,模型會(huì)逐漸失去對(duì)原始數(shù)據(jù)分布的理解,也就是"干凈的人類數(shù)據(jù)"。

在晚期階段,模型會(huì)將幾代模型對(duì)原始數(shù)據(jù)分布的錯(cuò)誤認(rèn)知糾纏在一起,進(jìn)而扭曲對(duì)現(xiàn)實(shí)的認(rèn)知。

研究人員首先對(duì)小樣本模型GMM(高斯混合模型)和VAE(變量自動(dòng)編碼器)進(jìn)行了訓(xùn)練。以GMM為例,他們觀察到模型在開始幾十次迭代時(shí)對(duì)數(shù)據(jù)的擬合非常好。然而,隨著迭代的進(jìn)行,模型對(duì)數(shù)據(jù)分布的理解開始出現(xiàn)錯(cuò)誤。當(dāng)?shù)_(dá)到2000次時(shí),模型已經(jīng)收斂到一個(gè)非常小的點(diǎn),意味著模型開始穩(wěn)定地輸出錯(cuò)誤的答案。

為了驗(yàn)證預(yù)訓(xùn)練對(duì)實(shí)驗(yàn)結(jié)果的影響,研究人員還在1.25億參數(shù)的LLM(大語言模型)OPT-125m上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集來自維基百科的wikitext2。通過實(shí)驗(yàn)結(jié)果可以看出,到了第9代模型時(shí),輸出的內(nèi)容已經(jīng)變得毫無意義。

論文的作者之一伊利亞·舒邁洛夫表示,隨著時(shí)間的推移,人工智能生成的數(shù)據(jù)中的錯(cuò)誤會(huì)不斷累積,主要模型在接受這些數(shù)據(jù)訓(xùn)練后,會(huì)對(duì)現(xiàn)實(shí)產(chǎn)生更加扭曲的認(rèn)知。

那么,為什么會(huì)出現(xiàn)模型崩潰呢?

模型崩潰的主要原因在于AI并非真正的智能,其所展現(xiàn)的近似"智能"能力實(shí)際上是基于大量數(shù)據(jù)的統(tǒng)計(jì)學(xué)方法。

基本上,所有無監(jiān)督機(jī)器學(xué)習(xí)算法都遵循著一個(gè)簡(jiǎn)單的模式:給定一系列數(shù)據(jù),訓(xùn)練出一個(gè)能夠描述這些數(shù)據(jù)規(guī)律的模型。

在這個(gè)過程中,模型更容易關(guān)注出現(xiàn)概率較高的數(shù)據(jù),而對(duì)于出現(xiàn)概率較低的數(shù)據(jù)則容易低估。

舉個(gè)例子,假設(shè)我們需要記錄100次擲骰子的結(jié)果來計(jì)算每個(gè)面出現(xiàn)的概率。理論上,每個(gè)面出現(xiàn)的概率是相等的。然而,在實(shí)際生活中,由于樣本量較小,可能會(huì)出現(xiàn)某些面的出現(xiàn)次數(shù)比較多的情況。但是對(duì)于模型而言,它學(xué)習(xí)到的數(shù)據(jù)就是某些面出現(xiàn)的概率較高,因此它會(huì)更傾向于生成更多的這些面的結(jié)果。

那么,有沒有辦法解決模型崩潰的問題呢?

事實(shí)上,并不是所有的希望都已經(jīng)破滅。

當(dāng)人類數(shù)據(jù)越來越稀缺時(shí),AI訓(xùn)練仍然有機(jī)會(huì),有一些方法可以解決數(shù)據(jù)枯竭的問題:

首先是數(shù)據(jù)"隔離"。隨著AI的不斷強(qiáng)大,越來越多的人開始使用AI輔助工作,因此可用的"干凈人類數(shù)據(jù)集"可能會(huì)越來越難以獲取。為了解決模型崩潰問題,研究團(tuán)隊(duì)提出了一種"先行者優(yōu)勢(shì)"的方法,即將干凈的人工生成數(shù)據(jù)源與AI生成的內(nèi)容分離開來,以防止AIGC對(duì)干凈數(shù)據(jù)的污染。這需要社區(qū)和公司的共同努力,共同保護(hù)人類數(shù)據(jù)免受AIGC的污染。

其次是使用合成數(shù)據(jù)。實(shí)際上,專門基于AI生成的數(shù)據(jù)已經(jīng)被廣泛用于AI的訓(xùn)練。對(duì)于一些從業(yè)者來說,目前關(guān)注AI生成數(shù)據(jù)導(dǎo)致模型崩潰的擔(dān)憂可能有些夸大其詞。光輪智能創(chuàng)始人謝晨表示,國(guó)外的研究論文中對(duì)于AI生成數(shù)據(jù)導(dǎo)致模型崩潰的實(shí)驗(yàn)方法并不準(zhǔn)確。無論是人類數(shù)據(jù)還是AI生成的數(shù)據(jù),都存在可用性和不可用性的區(qū)別。因此,關(guān)鍵在于建立一套有效的體系來區(qū)分AI生成的數(shù)據(jù)中的可用和不可用部分,并根據(jù)訓(xùn)練后模型的效果進(jìn)行反饋。OpenAI使用合成數(shù)據(jù)進(jìn)行模型訓(xùn)練已經(jīng)成為AI行業(yè)內(nèi)的共識(shí)。

總之,盡管人類數(shù)據(jù)面臨枯竭的問題,但AI訓(xùn)練并非沒有解決辦法。通過數(shù)據(jù)的隔離和合成數(shù)據(jù)的使用,可以有效克服模型崩潰的問題,確保AI的持續(xù)發(fā)展。

分享到:
標(biāo)簽:數(shù)據(jù)枯竭引發(fā)AI危機(jī):模型崩潰如何解決? 人工智能
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定