日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

「指令」(Instruction)是ChatGPT模型取得突破性進展的關(guān)鍵因素,可以讓語言模型的輸出更符合「人類的偏好」。

但指令的標注工作需要耗費大量的人力,即便有了開源的語言模型,資金不足的學(xué)術(shù)機構(gòu)、小公司也很難訓(xùn)練出自己ChatGPT.

最近微軟的研究人員利用之前提出的Self-Instruct技術(shù),首次嘗試使用GPT-4模型來自動生成語言模型所需的微調(diào)指令數(shù)據(jù)。

 

圖片

 

論文鏈接:https://arxiv.org/pdf/2304.03277.pdf

代碼鏈接:https://Github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

在基于Meta開源的LLaMA模型上的實驗結(jié)果表明,由 GPT-4生成的5.2萬條英語和漢語instruction-following數(shù)據(jù)在新任務(wù)中的表現(xiàn)優(yōu)于以前最先進的模型生成的指令數(shù)據(jù),研究人員還從GPT-4中收集反饋和比較數(shù)據(jù),以便進行全面的評估和獎勵模式訓(xùn)練。

訓(xùn)練數(shù)據(jù)

數(shù)據(jù)收集

研究人員重用了斯坦福大學(xué)發(fā)布的Alpaca模型用到的5.2萬條指令,其中每條指令都描述了模型應(yīng)該執(zhí)行的任務(wù),并遵循與Alpaca相同的prompting策略,同時考慮有輸入和無輸入的情況,作為任務(wù)的可選上下文或輸入;使用大型語言模型對指令輸出答案。

 

圖片

 

在Alpaca 數(shù)據(jù)集中,輸出是使用GPT-3.5(text-davinci-003)生成的,但在這篇論文中,研究人員選擇使用GPT-4來生成數(shù)據(jù),具體包括以下四個數(shù)據(jù)集:

1. 英文Instruction-Following Data:對于在Alpaca中收集的5.2萬條指令,為每一條指令都提供一個英文GPT-4答案。

 

圖片

 

未來的工作為遵循迭代的過程,使用GPT-4和self-instruct構(gòu)建一個全新的數(shù)據(jù)集。

2. 中文Instruction-Following Data:使用ChatGPT將5.2萬條指令翻譯成中文,并要求GPT-4用中文回答這些指令,并以此建立一個基于LLaMA的中文instruction-following模型,并研究指令調(diào)優(yōu)的跨語言泛化能力。

3. 對比數(shù)據(jù)(Comparison Data):要求GPT-4對自己的回復(fù)提供從1到10的評分,并對GPT-4, GPT-3.5和OPT-IML這三個模型的回復(fù)進行評分,以訓(xùn)練獎勵模型。

 

圖片

 

4. 非自然指令的答案:GPT-4的答案是在6.8萬條(指令,輸入,輸出)三元組的數(shù)據(jù)集上解碼的,使用該子集來量化GPT-4和指令調(diào)優(yōu)后的模型在規(guī)模上的差距。

數(shù)據(jù)統(tǒng)計

研究人員對比了GPT-4和GPT-3.5的英語輸出回復(fù)集合:對于每個輸出,都提取了根動詞(root verb)和直接賓語名詞(direct-object noun),在每個輸出集上計算了獨特的動詞-名詞對的頻率。

 

圖片

 

頻率高于10的動詞-名詞對

 

圖片

 

頻率最高的25對動詞-名詞

 

圖片

 

輸出序列長度的頻率分布對比

可以看到,GPT-4傾向于生成比GPT-3.5更長的序列,Alpaca中GPT-3.5數(shù)據(jù)的長尾現(xiàn)象比GPT-4的輸出分布更明顯,可能是因為Alpaca數(shù)據(jù)集涉及到一個迭代的數(shù)據(jù)收集過程,在每次迭代中去除相似的指令實例,在目前的一次性數(shù)據(jù)生成中是沒有的。

盡管這個過程很簡單,但GPT-4生成的instruction-following數(shù)據(jù)表現(xiàn)出更強大的對齊性能。

指令調(diào)優(yōu)語言模型

Self-Instruct 調(diào)優(yōu)

研究人員基于LLaMA 7B checkpoint有監(jiān)督微調(diào)后訓(xùn)練得到了兩個模型:LLaMA-GPT4是在GPT-4生成的5.2萬條英文instruction-following數(shù)據(jù)上訓(xùn)練的;LLaMA-GPT4-CN是在GPT-4的5.2萬條中文instruction-following數(shù)據(jù)上訓(xùn)練的。

兩個模型被用來研究GPT-4的數(shù)據(jù)質(zhì)量以及在一種語言中進行指令調(diào)優(yōu)的LLMs時的跨語言泛化特性。

獎勵模型

從人類反饋中進行強化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)旨在使LLM行為與人類的偏好相一致,以使語言模型的輸出對人類更加有用。

RLHF的一個關(guān)鍵組成部分是獎勵建模,其問題可以被表述為一個回歸任務(wù),以預(yù)測給定提示和回復(fù)的獎勵評分,該方法通常需要大規(guī)模的比較數(shù)據(jù),即對同一提示的兩個模型反應(yīng)進行比較。

現(xiàn)有的開源模型,如Alpaca、Vicuna和Dolly,由于標注對比數(shù)據(jù)的成本很高,所以沒有用到RLHF,并且最近的研究表明,GPT-4能夠識別和修復(fù)自己的錯誤,并準確判斷回復(fù)的質(zhì)量。

 

圖片

 

為了促進對RLHF的研究,研究人員使用GPT-4創(chuàng)建了對比數(shù)據(jù);為了評估數(shù)據(jù)質(zhì)量,研究人員訓(xùn)練一個基于OPT 1.3B的獎勵模型,以對不同的回復(fù)進行評分:對一個提示和K個回復(fù),GPT-4為每個回復(fù)提供一個1到10之間的評分。

實驗結(jié)果

在 GPT-4數(shù)據(jù)上評估以前從未見過的任務(wù)的self-instruct調(diào)優(yōu)模型的性能仍然是一項困難的任務(wù)。

由于主要目標是評估模型理解和遵守各種任務(wù)指示的能力,為了實現(xiàn)這一點,研究人員利用三種類型的評估,并通過研究結(jié)果證實,「利用 GPT-4生成數(shù)據(jù)」相比其他機器自動生成的數(shù)據(jù)來說是一種有效的大型語言模型指令調(diào)優(yōu)方法。

人類評估

為了評估該指令調(diào)優(yōu)后的大型語言模型對齊質(zhì)量,研究人員遵循之前提出的對齊標準:如果一個助手是有幫助的、誠實的和無害的(HHH),那它就是與人類評估標準對齊的,這些標準也被廣泛用于評估人工智能系統(tǒng)與人類價值觀的一致性程度。

幫助性(helpfulness):是否能幫助人類實現(xiàn)他們的目標,一個能夠準確回答問題的模型是有幫助的。

誠實性(honesty):是否提供真實信息,并在必要時表達其不確定性以避免誤導(dǎo)人類用戶,一個提供虛假信息的模型是不誠實的。

無害性(harmlessness):是否不會對人類造成傷害,一個產(chǎn)生仇恨言論或提倡暴力的模型不是無害的。

基于HHH對齊標準,研究人員使用眾包平臺Amazon Mechanical Turk對模型生成結(jié)果進行人工評估。

 

圖片

 

文中提出的兩個模型分別在GPT-4和GPT-3生成的數(shù)據(jù)上進行了微調(diào),可以看到LLaMA-GPT4以51.2%的占比在幫助性上要大大優(yōu)于在GPT-3上微調(diào)的Alpaca(19.74%),而在誠實性和 無害性標準下,則基本處于平局狀態(tài),GPT-3要略勝一籌。

 

圖片

 

在和原版GPT-4對比時,可以發(fā)現(xiàn)二者在三個標準上也是相當一致的,即GPT-4指令調(diào)優(yōu)后的LLaMA表現(xiàn)與原始的GPT-4類似。

GPT-4自動評估

受 Vicuna 的啟發(fā),研究人員也選擇用GPT-4來評估不同聊天機器人模型對80個未見過的問題所生成回答的質(zhì)量,從 LLaMA-GPT-4(7B)和 GPT-4模型中收集回復(fù),并從以前的研究中獲得其他模型的答案,然后要求GPT-4對兩個模型之間的回復(fù)質(zhì)量進行評分,評分范圍從1到10,并將結(jié)果與其他強競爭模型(ChatGPT 和 GPT-4)進行比較。

 

圖片

 

評估結(jié)果顯示,反饋數(shù)據(jù)和獎勵模型對提高 LLaMA 的性能是有效的;用GPT-4對LLaMA進行指令調(diào)優(yōu),往往比用text-davinci-003調(diào)優(yōu)(即Alpaca)和不調(diào)優(yōu)(即LLaMA)的性能更高;7B LLaMA GPT4的性能超過了13B Alpaca和LLaMA,但和GPT-4等大型商業(yè)聊天機器人相比,仍有差距。

 

圖片

 

進一步研究中文聊天機器人的性能時,首先使用GPT-4將聊天機器人的問題也從英文翻譯成中文,用GPT-4獲得答案,可以得到兩個有趣的觀察結(jié)果:

1. 可以發(fā)現(xiàn)GPT-4評價的相對分數(shù)指標是相當一致的,無論是在不同的對手模型(即ChatGPT或GPT-4)和語言(即英語或中文)方面。

2. 僅就GPT-4的結(jié)果而言,翻譯后的回復(fù)比中文生成的回復(fù)表現(xiàn)得更好,可能是因為GPT-4是在比中文更豐富的英文語料庫中訓(xùn)練的,所以具有更強的英文instruction-following能力。

非自然指令評估(Unnatural Instruction Evaluation)

 

圖片

 

從平均ROUGE-L得分來看,Alpaca優(yōu)于LLaMA-GPT 4和GPT-4,可以注意到,LLaMA-GPT4和GPT4在ground truth回復(fù)長度增加時逐漸表現(xiàn)得更好,最終在長度超過4時表現(xiàn)出更高的性能,意味著當場景更具創(chuàng)造性時,可以更好地遵循指令。

在不同的子集中,LLaMA-GPT4跟GPT-4的行為相差無幾;當序列長度較短時,LLaMA-GPT4和GPT-4都能生成包含簡單的基本事實答案的回復(fù),但會增加額外的詞語,使回復(fù)更像聊天,可能會導(dǎo)致ROUGE-L得分降低。

分享到:
標簽:GPT
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定