日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

作者|騰訊科技 郝博陽

我造我自己

AI威脅的核心:自我進化的速度

關(guān)于AI可能帶來的威脅在過去幾個月的時間中已經(jīng)讓人有點疲憊了。從業(yè)界大佬馬斯克、山姆奧特曼,到學術(shù)界巨擘杰弗里·辛頓,約書亞·本亞吉都多次表達了對AI威脅的強烈恐懼。但同時,以楊立昆為代表的很多AI的研究人員和從業(yè)者都對此威脅不屑一顧,認為這不過是一種科幻式的夸張。

兩種觀點爭議的核心在于:我們是否有可能控制AI和對它的應(yīng)用。如果在人工智能超越人類智能時我們還是找不到合理的和它對齊,對它限制的方法的話,那它就很可能會陷入失控。

樂觀主義者們認為當下的AI離完善的AGI還尚有不小的距離,遠沒有達到超過人類的智能水平。因此在發(fā)展AI的期間我們完全可以通過尋找人工干預(yù)對齊的方法,控制AI發(fā)展的方向。另外,因為現(xiàn)階段訓(xùn)練AI必須通過人的參與才能完成,因此人類可以隨時停止它。

然而對悲觀主義者而言,也許我們已經(jīng)沒有這個時間了。過去幾年來AI的發(fā)展突飛猛進,作為深度學習之父的辛頓都多次表達被震驚之感。他告訴《紐約時報》:“看看五年前和現(xiàn)在的情況。這種前進的速度這太可怕了。”

但這還不是最快,因為AI還面對著一些速度瓶頸。其中最要命的就是無法靠算力加速的人工對齊工作。但如果有一天,它能突破人工參與這個限制會發(fā)生什么呢?一個完全可以自我進化的AI。

對此,MetaLab的 Tamlyn Hunt 曾在《科學美國人》上撰文稱:人工智能算法將很快達到快速自我完善的地步。這威脅到我們控制它們的能力,并對人類構(gòu)成巨大的潛在風險。提出暫停AI實驗建議的Tagesmark也在之前參與Lex的播客時,表達了同樣的觀點:如果這一自我完善能夠被做到,AI進化的速度將大幅加快,而且也會基本完全脫離人類的控制。

按照他們的觀點,一旦AI跨過自我進化的速度這個門檻,那些樂觀主義的論點也就不再有效。AI加速進化,失控就在眼前。

那可以自我進化的AI到底離我們還有多遠?現(xiàn)在看來已經(jīng)近在咫尺了。

自我進化的AI,已經(jīng)徘徊在門前

在當前的AI訓(xùn)練中,為什么人工是不可缺少的?

完成一個大語言模型需要經(jīng)過三個階段:預(yù)訓(xùn)練、提示微調(diào)和強化學習。前兩個階段目前可以完全依靠給定的數(shù)據(jù)集由AI自行完成。但如果想要AI的回答準確更可理解,更符合特定需求,還需要一個重要的步驟——即來自人類反饋強化學習(RLHF)。在這一過程中,人類標記員與預(yù)訓(xùn)練的模型對話,提供對話樣本讓模型生成一些回復(fù)。之后標記員會對回復(fù)選項打分排名。最后把這個結(jié)果反饋回模型中,以強化它的獎懲算法。這也是GPT4和ChatGPT相對于GPT3最重要的一個策略升級,通過RLHF,OpenAI很大地提升了給模型的回應(yīng)質(zhì)量和能力。

這個RLHF,也就是強化學習的步驟就是之前在主流大語言模型訓(xùn)練過程中還無法被AI自主接管的唯一步驟。

為什么說之前,因為現(xiàn)在AI也能做到了。

AI研究者表示:完了

在google的新論文“RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback”測試了一種革命性的新技術(shù),使AI系統(tǒng)能夠通過使用其他AI的反饋來遞歸地改進自己。

這種新技術(shù)被稱為RLAIF(AI反饋強化學習)。它并非本文作者獨創(chuàng),而是在之前被其Anthropic的研究者提出的一個概念(Gilardi et al., 2023; Ding et al., 2023). Bai et al. (2022b)。他們用這RLAIF 和 RLHF 結(jié)合形成一個綜合的Constitutional AI,用于融合人類和AI提出的偏好應(yīng)用在微調(diào)上,為微調(diào)提效。但這一工作并沒有直接比較AI的反饋和人類反饋的效果。本文作者這一次就單獨讓AI作為反饋強化的唯一參與者,測試其效果。

作者限制了一個相對較窄的使用場景:用強化學習來訓(xùn)練人工智能系統(tǒng)的文本摘要能力——即產(chǎn)生從較長文章中捕捉關(guān)鍵點,來進行簡明摘要。具體實驗如下:

給定一個經(jīng)過監(jiān)督微調(diào)(SFT)的大語言模型(在本實驗中是OpenAI開源的Reddit TL;DR數(shù)據(jù)集進行的預(yù)訓(xùn)練)。RLHF的處理流程是:

1. 讓被訓(xùn)練的語言模型都為給定的文章生成文本摘要

2. 人類標注師對比較并評估幾對總結(jié),判斷哪一個總結(jié)更優(yōu)秀

3. 這些人類的偏好被用來開發(fā)一個“獎勵模型”,預(yù)測人類會喜歡哪些總結(jié)

4. 然后,這個獎勵模型被用來提供反饋和獎勵,以增強人工智能代理生成被人類認為優(yōu)秀的摘要

這一標注操作會進行多輪,以有效改進這個語言模型的效果。

RLAIF系統(tǒng)經(jīng)歷了相同的整體過程。然而關(guān)鍵的區(qū)別在于,這里面作為裁判的一個能力更強經(jīng)過提前訓(xùn)練的“現(xiàn)成”自然語言模型。作者用經(jīng)過精調(diào)后的PaLM-2.7B 來提供反饋判斷,形成一套完整地對語言模型輸出打分的偏好系統(tǒng)。這個先進的人工智能系統(tǒng)的反饋被用來代替人工評分,以訓(xùn)練提供訓(xùn)練獎勵的獎勵模型。

基本框架完全一致

訓(xùn)練這個用作偏好打分的LLM的過程也相當簡單明了,完全通過提示(prompting)完成。共四步:

1. 情況簡述:介紹并描述當前的任務(wù)

2. 小樣本給予(可選步驟):給出一個文本事例,幾組總結(jié)的結(jié)果,一個可用的理性思維鏈和一個偏好判斷

3. 需注釋內(nèi)容的范例:一個文本和一組總結(jié)

4. 結(jié)論:一個對LLM的提示終止線(比如說:偏好的總結(jié)=XX)

三步走的方法

在用兩種方法完成一輪強化學習訓(xùn)練后,人類標記員對這兩個訓(xùn)練完成模型的總結(jié)能力進行了評價。其結(jié)論是RLAIF策略與RLHF策略效果相當。經(jīng)RLAIF訓(xùn)練過的模型總結(jié)的結(jié)果在 71%的情況下超過了SFT基線的預(yù)訓(xùn)練模型的結(jié)果,而經(jīng)RLHF訓(xùn)練過的模型在73%的情況下超過了基礎(chǔ)與訓(xùn)練模型(其中2%差異可以認為沒有統(tǒng)計學意義)。單純比較經(jīng)過強化學習的結(jié)果語言模型,RLAIF對RLHF的勝率各為50%。這就意味著純粹使用AI反饋進行微調(diào)的RLAIF系統(tǒng)在強化學習方面,和人類反饋能達到一樣的效果。

兩種方法的評分比較

作者之后把研究更推進了一步。既然大語言模型已經(jīng)在很多標準測試中取得了比一般人更好的成績,針對這種有著某種標準的偏好反饋任務(wù),有沒有可能優(yōu)化RLAIF的水平,讓它們甚至可能超過人類標注員的水平呢?完全有可能。

一個方向是加強提示工程。作者初步試驗了使用不同的提示詞技術(shù)優(yōu)化RLAIF給出的判斷。其中包擴一些提示策略、思維鏈推理和自我一致性。最終發(fā)現(xiàn)無上下文示例提示+思想鏈的效果最好。而用自我一致性要求和較多上下文示例去加強思維鏈反而有可能會降低AI的訓(xùn)練能力。這表明隨著研究人員的不斷嘗試,RLAIF的性能仍有很大地提升空間。

0-Shot最好

除了提示工程上的改進,模型本身的能力也會影響最終的標注水平。作者接下里還對RLAIF系統(tǒng)進行了改變計算規(guī)模的實驗。以及觀察注釋經(jīng)驗提升對判斷準確的影響。好不意外,他們發(fā)現(xiàn)較大的模型在RLAIF訓(xùn)練后產(chǎn)生更高質(zhì)量的反饋,從而導(dǎo)致更好的最終總結(jié)性能。然而經(jīng)驗對效果提升的影響是比較有限的,在RLAIF進行過數(shù)千個帶注釋的摘要比較后,它帶來的準確性收益開始遞減。當然這表明模型本身可能已經(jīng)獲得了充分地反饋,形成了穩(wěn)定標準。

目前看來,這種方法也并非完全沒有缺點。在定性分析后,作者發(fā)現(xiàn)RLAIF生成的模型連貫性略低于RLHF,但它不太容易產(chǎn)生幻覺。

目前AI發(fā)展速度的瓶頸,都有了突破的解決辦法

論文的內(nèi)容就這么多。但我們可以考慮的未來卻更豐富。隨著越來越多的在AI性能提升和訓(xùn)練領(lǐng)域中AI開始逐漸替代人類的角色。在很近切的未來,我們就很可能看到計算機模型以越來越復(fù)雜和快速的方式相互建立和增強,達到遠遠超出孤立狀態(tài)下的智能水平。

盡管RLAIF確實需要大量的計算資源來進行自動反饋,但在初始訓(xùn)練后,它消除了持續(xù)的人類參與的需要。RLAIF方法有著不言而喻的優(yōu)點,即提供訓(xùn)練反饋的系統(tǒng)可以快速標記大量的經(jīng)驗,遠遠超出人類的注釋范圍。

RLAIF的成功提供了一個即將到來的機器學習范式轉(zhuǎn)變的一瞥,即依靠AI系統(tǒng)增強自身的范式已經(jīng)有了充分的基礎(chǔ)。人工智能中的遞歸自我完善,自我實現(xiàn)在可能在一年前看還是一個長期的愿景,但現(xiàn)在已經(jīng)越來越觸手可及。

隨著人工智能的能力越來越強,進一步提高其智能水平遇到了三個核心瓶頸:數(shù)據(jù),算力以及人工調(diào)整的效率。

算力瓶頸的問題并非是真實的天花板,更多是面對AI的突然爆發(fā),整體硬件產(chǎn)業(yè)的一種措手不及。隨著產(chǎn)能的迅速調(diào)整,老黃豪言2024H100供貨200萬塊。更別提在更多新玩家入局(比如最近憋著要在GPU市場上與英偉達爭雄的AMD,自己打著自研小算盤的亞馬遜和谷歌,以及數(shù)十家GPU初創(chuàng)公司)和更大的算力基建鋪設(shè)之后,這個瓶頸就會逐步自然得到解除。

老黃:AI的命脈(H100)就抓在我手里

數(shù)據(jù)方面的瓶頸主要來源于人類生產(chǎn)高質(zhì)量的內(nèi)容數(shù)據(jù)目前已經(jīng)大部分被AI訓(xùn)練所消耗,在沒有新的數(shù)據(jù)補充的情況下,縮放效應(yīng)帶來的語言模型能力的線性成長就無法達成。但這個問題其實已經(jīng)被一定程度的解決了。早在7月,微軟、OpenAI和Cohere等公司就已經(jīng)開始測試使用合成數(shù)據(jù)(計算機生成的信息)訓(xùn)練大語言模型。雖然劍橋牛津的學者發(fā)表論文警告說隨著時間的推移,這些合成數(shù)據(jù)或許會破壞模型,導(dǎo)致「不可逆轉(zhuǎn)的缺陷」。但至少在一些實驗條件下,比如港大利用合成圖像訓(xùn)練模型的實驗中,這一通路還是獲得了很好的效果的。

在RAILF出現(xiàn)之前,訓(xùn)練AI的最大瓶頸坑就是人工調(diào)整對齊的效率難以提升。比如在GPT4的開發(fā)過程中,完成預(yù)訓(xùn)練的時間可能僅有3個月左右,但使用RLHF進行對抗和強化的過程就持續(xù)了6個月。超過訓(xùn)練模型時間的兩倍,而且訓(xùn)練模型的時間可以通過算力加強和算法改進縮短,但人工的有效速度很難提升。現(xiàn)在論文中的RAILF一但被有效應(yīng)用,這一瓶頸自然也就解決了。

AI進化上的路障,已經(jīng)一個接一個的被掃清。我們控制它的方法改進卻似乎遠沒有這么快。

分享到:
標簽:AI
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定