深度解構ChatGPT技術
作者:ryanran,xiamixue,騰訊PCG應用研究工程師
ChatGPT主要特點
ChatGPT本質是一個對話模型,它可以回答日常問題、進行多輪閑聊,也可以承認錯誤回復、挑戰不正確的問題,甚至會拒絕不適當的請求。在上周公布博文和試用接口后,ChatGPT很快以令人驚嘆的對話能力“引爆”網絡。
1)ChatGPT的技術背景
ChatGPT目前未釋出論文文獻,僅釋出了介紹博文和試用API。從博文中提供的技術點和示意圖來看,它與今年初公布的InstructGPT 核心思想一致。其關鍵能力來自三個方面: 強大的基座大模型能力(InstructGPT),高質量的真實數據(干凈且豐富),強化學習(PPO算法)。以上ChatGPT成功的三個要素,具體將在文中第2部分詳細展開。
2)ChatGPT的主要特點
讓用戶印象最深刻的是 它有強大的語言理解和生成系統。其對話能力、文本生成能力、對不同語言表述的理解均很出色。它以對話為載體,可以回答多種多樣的日常問題,對于多輪對話歷史的記憶能力和篇幅增強。其次,與GPT3等大模型相比,ChatGPT回答更全面,可以多角度全方位進行回答和闡述,相較以往的大模型,知識被“挖掘”得更充分。 它能降低了人類學習成本和節省時間成本,可以滿足人類大部分日常需求,比如快速為人類改寫確定目標的文字、大篇幅續寫和生成小說、快速定位代碼的bug等。
值得一提的事, 它具有安全機制和去除偏見能力。下圖這類問題在以前的大模型中時常出現,然而ChatGPT在這兩點上增加了過濾處理機制。針對不適當的提問和請求,它可以做出拒絕和“圓滑”的回復。例如對于違法行為的提問:
對于未知事物的“拒絕”:
當然ChatGPT并非十全十美,其缺點也比較明顯。首先, 其簡單的邏輯問題錯誤依舊明顯存在,發揮不夠穩定(但總體比GPT3好很多)。特別在有對話歷史時,它容易因被用戶誤導而動搖。
其次, ChatGPT有時會給出看似合理、但并不正確或甚至荒謬的答案。部分答案需要自行甄別才能判斷正誤,特別當本身用戶處于未知狀態來咨詢模型時,更加無法判斷真偽。ChatGPT使得生產者可以用較低成本增加錯誤信息,而這一固有缺點已經造成了一些實際影響。編程問答網站 StackOverflow 宣布暫時禁止用戶發布來自 ChatGPT 生成的內容,網站 mods 表示:看似合理但實際上錯誤的回復數量太多,已經超過了網站的承受能力。
此外, 它抵抗不安全的prompt能力較差,還存在過分猜測用戶意圖的問題。這主要體現在當用戶提問意圖不明確時,ChatGPT會猜測用戶意圖,理想情況應為要求用戶澄清;當用戶意圖不明確時,很大概率給出不合適的回復。大批量的用戶反饋, ChatGPT部分回復廢話較多、句式固定。它通常過度使用一些常見的短語和句式。這與構造訓練數據時,用戶傾向于選擇更長的回復有關。
ChatGPT的工作原理 1)ChatGPT的訓練過程
ChatGPT訓練過程很清晰,主要分為三個步驟,示意如圖所示:
第一步,使用有監督學習方式,基于GPT3.5微調訓練一個初始模型,訓練數據約為2w~3w量級(此處為推測量級,我們根據兄弟模型InstructGPT的訓練數據量級估算)。由標注師分別扮演用戶和聊天機器人,產生人工精標的多輪對話數據。值得注意的是,在人類扮演聊天機器人時,會得到機器生成的一些建議來幫助人類撰寫自己的回復,以此提高撰寫標注效率。
以上精標的訓練數據雖然數據量不大,但質量和多樣性非常高,且來自真實世界數據,這是很關鍵的一點。
第二步,收集相同上文下,根據回復質量進行排序的數據:即隨機抽取一大批Prompt,使用第一階段微調模型,產生多個不同回答:
,
,
…
,之后標注人員對k個結果排序,形成
組訓練數據對。之后使用pairwise loss來訓練獎勵模型,可以預測出標注者更喜歡哪個輸出。 "從比較中"學習可以給出相對精確的獎勵值。
這一步使得ChatGPT從命令驅動轉向了意圖驅動。關于這一點,李宏毅老師的原話稱,“它會不斷引導GPT說人類要他說的”。另外,訓練數據不需過多,維持在萬量級即可。因為它不需要窮盡所有的問題,只要告訴模型人類的喜好,強化模型意圖驅動的能力就行。
第三步,使用PPO強化學習策略來微調第一階段的模型。這里的核心思想是隨機抽取新的Prompt,用第二階段的Reward Model給產生的回答打分。這個分數即回答的整體reward,進而將此reward回傳,由此產生的策略梯度可以更新PPO模型參數。整個過程迭代數次直到模型收斂。
強化學習算法可以簡單理解為通過調整模型參數,使模型得到最大的獎勵(reward),最大獎勵意味著此時的回復最符合人工的選擇取向。而對于PPO,我們知道它是2017年OpenAI提出的一種新型的強化學習策略優化的算法即可。它提出了新的目標函數,可以在多個訓練步驟實現小批量的更新,其實現簡單、易于理解、性能穩定、能同時處理離散/連續動作空間問題、利于大規模訓練。
以上三個步驟即ChatGPT的訓練過程,合稱為文獻中提到的 RLHF技術。
2)ChatGPT為何成功?
為何三段式的訓練方法就可以讓ChatGPT如此強大?其實,以上的訓練過程蘊含了上文我們提到的關鍵點,而這些關鍵點正是ChatGPT成功的原因:
- 強大的基座模型能力(InstructGPT)
- 大參數語言模型(GPT3.5)
- 高質量的真實數據(精標的多輪對話數據和比較排序數據)
- 性能穩定的強化學習算法(PPO算法)
我們需要注意的是,chatGPT的成功,是在前期大量工作基礎上實現的,非憑空產生的“驚雷”。下面我們將針對性闡述:
- InstructGPT
ChatGPT是 InstructGPT的兄弟模型(sibling model),后者經過訓練以遵循Prompt中的指令,從而提供詳細的響應。InstructGPT是OpenAI在今年3月在文獻 Training language models to follow instructions with human feedback 中提出的工作。其整體流程和以上的ChatGPT流程基本相同,但是在數據收集、基座模型(GPT3 vs GPT 3.5)以及第三步初始化PPO模型時略有不同。
此篇可以視為RLHF 1.0的收官之作。一方面,從官網來看,這篇文章之后暫時沒有發布RLHF的新研究,另一方面這篇文章也佐證了Instruction Tuning的有效性。
InstuctGPT的工作與ChatGPT類似:給定Instruction且需要人工寫回答。首先工作人員訓練了一個InstructGPT的早期版本,使用完全人工標注的數據,分3類: Instruction+Answer、Instruction+多個examples 和用戶在使用API過程中提出的需求。從第二類數據的標注,推測ChatGPT可能用檢索來提供多個In Context Learning的示例,供人工標注。剩余步驟與以上ChatGPT相同。
在完成以上工作后,我們可以來看看InstuctGPT與GPT3的區別:
GPT3的回答簡短,回復過于通俗毫無亮點。而InstructGPT“侃侃而談”,解釋自由主義為何愚蠢,顯然模型學到了對于此類問題人們更想要的長篇大論的回答。
GPT3只是個語言模型,它被用來預測下一個單詞,絲毫沒有考慮用戶想要的答案;當使用代表用戶喜好的三類人工標注為微調數據后,1.3B參數的InstructGPT在多場景下的效果超越175B的GPT3:
InstuctGPT的工作也很有開創性:它在“解鎖”(unlock)和挖掘GPT3學到的海量數據中的知識和能力,但這些僅通過快速的In-context的方式較難獲得。InstuctGPT找到了一種面向主觀任務來挖掘GPT3強大語言能力的方式。
OpenAI博文中有這樣一段原話: 當我們要解決的安全和對齊問題是復雜和主觀,它的好壞無法完全被自動指標衡量的時候,此時需要用人類的偏好來作為獎勵信號來微調我們的模型。
- InstuctGPT的前序工作:GPT與強化學習的結合
其實在2019年GPT2出世后,OpenAI就有嘗試結合GPT-2和強化學習。NeurIPS 2020的 Learning to Summarize with Human Feedback 工作中寫道,OpenAI在摘要生成時,利用了從人類反饋中的強化學習來訓練。可以從這篇工作的整體流程圖中,看出三步走的核心思想: 收集反饋數據 -> 訓練獎勵模型 -> PPO強化學習。
RLHF第一階段是針對多個候選摘要人工排序(這里就體現出OpenAI的鈔能力,按標注時間計費,標注過快的會被開除);第二階段是訓練排序模型(依舊使用GPT模型);第三階段是利用PPO算法學習Policy(在摘要任務上微調過的GPT)。
文中模型可以產生比10倍更大模型容量更好的摘要效果。但文中也同樣指出, 模型的成功部分歸功于增大了獎勵模型的規模。但這需要很大量級的計算資源——訓練6.7B的強化學習模型需要320 GPU-days的成本。
2020年初的OpenAI的Fine-Tuning GPT-2 from Human Preferences可看出, 它同樣首先利用預訓練模型來訓練reward模型,進而使用PPO策略進行強化學習。整體步驟初見ChatGPT的雛形!
而RLHF(reinforcement learning from human feedback )的思想,是在2017年6月的OpenAI Deep Reinforcement Learning from Human Preferences工作提出的。其核心思想是利用人類的反饋判斷最接近視頻行為目標的片段;通過訓練來找到最能解釋人類判斷的獎勵函數,然后使用RL來學習如何實現這個目標。
可以說, ChatGPT是站在InstructGPT以及以上理論的肩膀上完成的一項出色的工作,它們將LLM(large language model)/PTM(pretrain language model)與RL(reinforcement learning)出色結合證明這條方向可行。當然,這也是未來還將持續發展的NLP甚至通用智能體的方向。
- PPO
PPO(Proximal Policy Optimization) 一種新型的Policy Gradient算法(Policy Gradient是一種強化學習算法,通過優化智能體的行為策略來解決在環境中實現目標的問題)。我們只需了解普通的Policy Gradient算法對步長十分敏感,但是又難以選擇合適的步長。在訓練過程中新舊策略的的變化差異如果過大則不利于學習。
而PPO提出了新的目標函數可以在多個訓練步驟實現小批量的更新,解決了Policy Gradient算法中步長難以確定的問題。由于其實現簡單、性能穩定、能同時處理離散/連續動作空間問題、利于大規模訓練等優勢,近年來受到廣泛關注,成為OpenAI默認強化學習算法。
- WebGPT和CICERO
近兩年,利用LLM+RL以及對強化學習和NLP訓練的研究,各大巨頭在這個領域做了非常多扎實的工作,而這些成果和ChatGPT一樣都有可圈可點之處。這里以OpenAI的WebGPT和Meta的Cicero為例。
WebGPT是2021年底OpenAI的工作。其核心思想是使用GPT3模型強大的生成能力,學習人類使用搜索引擎的一系列行為,通過訓練獎勵模型來預測人類的偏好,使WebGPT可以自己搜索網頁來回答開放域的問題,而產生的答案盡可能滿足人類的喜好。
Cicero是Meta AI上個月發布的可以以人類水平玩文字策略游戲的AI系統,。其同樣可以與人類互動,可以使用戰略推理和自然語言與人類在游戲玩法中進行互動和競爭。Cicero的核心是由一個對話引擎和一個戰略推理引擎共同驅動的,而戰略推理引擎集中使用了RL,對話引擎與GPT3類似。
Meta原blog中寫道:The technology behind CICERO could one day lead to more intelligent assistants in the physical and virtual worlds.
而以上也是我們未來力求突破的方向和愿景: 一個真正全方位的智能的文字助手。
ChatGPT應用和思考 1)ChatGPT應用
- ChatGPT對于文字模態的AIGC應用具有重要意義
其中有些方向會涉及到交互的全面改革,比如機器翻譯不再是傳統的文本輸入->實時翻譯,而是隨時以助手問答的形式出現。甚至給出一個大概籠統的中文意思,讓機器給出對應英文。目前我們目前所做的寫作產品,可能也會涉及創作模式的改變和革新。
- ChatGPT作為文字形態的基礎模型,自然可以與其他多模態結合
比如最近同為火熱的Stable Diffusion模型,利用ChatGPT生成較佳的Prompt,對于AIGC內容和日趨火熱的藝術創作,提供強大的文字形態的動力。
- ChatGPT對于搜索引擎的代替性:ChatGPT可以作為搜索引擎的有效補充
但至于是否能代替搜索引擎(不少人關注的地方),拋開推理成本不談,目前只從效果上來說為時尚早。
對于網絡有答案的query,抽取就完全能滿足,現友商最近就有這樣的功能。網絡上沒有明確答案,即使檢索了相關材料(ChatGPT應該還沒有這樣的功能),也沒人能保證生成結果的可信度。
- ChatGPT本身的升級
與WebGPT的結合對信息進行實時更新,并且對于事實真假進行判斷。現在的ChatGPT沒有實時更新和事實判斷能力,而這如果結合WebGPT的自動搜索能力,讓ChatGPT學會自己去海量知識庫中探索和學習,預測可能會是GPT-4的一項能力。
還有其他更多方向,包括ChatGPT與最近數理邏輯工作的結合。此處受個人思維所限,無法一一列舉。
2)關于ChatGPT的思考
參考上文所述,以及參閱近2年OpenAI GPT語言模型相關的文章,RLHF的方法效果顯著, ChatGPT成功的核心也在于基于LLM(Large language model)的RLHF(Reinforcement Learning from Human Feedback)。可以說,RLHF是一個很有希望且有趣的方向;強化學習在即將發布的GPT-4中大概率扮演這關鍵角色。
結合對于ChatGPT的看法,我們從算法和行業更新角度做出了闡述:
首先,對于ChatGPT的規模目前沒有更多信息支撐,所以無法明確如此智能的ChatGPT是在何規模下達成的。
最早的175B的GPT-3代號是Davinci,其他大小的模型有不同的代號。然而自此之后的代號幾乎是一片迷霧,不僅沒有任何論文,官方的介紹性博客也沒有。OpenAI稱Davinci-text-002/003是GPT-3.5,而它們均為InstrucGPT類型的模型,ChatGPT是基于其中一個微調模型得到,由此推測ChatGPT可能是千億模型。
其次,ChatGPT不完全算突破式的創新,是OpenAI一步一步扎實工作積累得到的幾乎理所當然的結果,屬于這兩年業界發展的成果匯總。
大家一般沒有機會接觸千億模型(之前有較少開源的千億模型,GPT-3也是收費的),不了解現在千億模型的能力邊界,對全量微調這個級別的模型也無從估計。以Bert和T5為代表的早期Transformer,和現在的大模型已不是一個量級。事實上11月28日OpenAI上新了text-davinci-003,但幾乎沒有引起國內任何討論。如果ChatGPT(11-30發布)不是免費試用,或許也不會引起這么大的反響。
同一時期的工作還有Deepmind的Sparrow和google的LaMDA,效果與ChatGPT應該不相上下。同樣以上提到的WebGPT和Cicero也在國內沒有太大的水花。這兩年LLM發展已經到了這個層級,或許因為成本或者工程化難度的問題,某種層面上在國內被忽視了。而此次ChatGPT正好找到了好的“曝光點”,一炮而紅。
所以,一方面我們要理性看待ChatGPT的成果,但另一方面ChatGPT的出現,會將我們的認識和國外先進思想拉到一條線上,我們應該思考如何利用這些令人激動的最新成果,而其中關鍵是如何找到適合我們入口的方式。
第三,數據處理不是簡單的標注,優秀的數據也是一種極大的優勢。除去技術上的考量,OpenAI很少開源數據,顯然他們在數據上也下了大功夫,訓練語料質量和開源的C4或The Pile不能同日而語。
當然,我們目前核心使用的開源千億模型,有很多待挖掘的能力。由于其在微調任務中缺乏生成式的對話和問答,某些表現不如ChatGPT也在預料之中。但是對于很多任務來說,配合In-context Learning,這個差距會被進一步縮小。
3)如何借鑒和使用ChatGPT
對于ChatGPT的借鑒和使用,大致可以歸類以下四個方向:
- 直接使用層面
此層面為復用API中效果極佳的部分,直接使用的優勢是可以快速實現多粒度多層級功能需求。在很多需求難以定義清晰、數據難以獲得的情況下,復用并包裝這樣的功能一本萬利。
當然其缺點也很明顯。直接調用成本是極高的,根據GPT3.5(Davinci)的成本推測:1k tokens≈700 words為0.02美元。換算后,一篇2k字的文章直接調用需要0.4人民幣。若保守按照日活1w用戶、人均10篇文章計算,則每日調用成本為:10000*10*0.4=40000元。雖成本過于高昂,但實現時間最少。
另外,根據Musk Twitter上與OpenAI工作人員的對話,也可以 看到每次聊天過程需要幾美分的成本,所以ChatGPT直接調用成本極高。
- 間接使用層面
此層面核心思想是利用OpenAI接口,按照不同需求生成高質量數據,克服現有數據難獲得的瓶頸;進而利用現有開源大模型進行數據擴增,這是目前比較切實,實現時間較少,是在時間成本和效果上折中的方式。
- 思想借鑒
首先,組內目前有初步嘗試參考RLHF的方法,如對多候選進行標注、利用得到的標注結果重新微調生成模型、或者增加排序階段加入RL學習。其次,我們也嘗試一些高效調參的方法微調現有大模型。但此條受限于資源尚需評估和確認。
總的來說,將改寫從最初的seq2seq,拓展到GPT+Instruction Tuning路徑。
實現時間:(1)< (2) < (3)
資源成本:(1)> (3) > (2)
- 交互升級
將寫作整體打造為ChatBot的形式,此核心思想見另一篇關于對話系統報告中的介紹,涉及到交互層面的變革。但ChatGPT的出現和核心技術讓形式升級成為可能。隨著深度學習和多智能體系統的發展,未來會有多種、多樣、多功能的X-Bot出現。