以下文章來源于Founder Park ,作者Founder Park
AI target=_blank class=infotextkey>OpenAI 的聯合創始人,三位核心成員之一的 Greg Brockman 日前在 TED2023 上發表演講,過程中演示了足以取代上周爆火的 AutoGPT 的新功能,還有 OpenAI 在人機協作方面的思考和進展。
以下是演講內容,經 Founder Park 編輯整理。
七年前,我們創辦了 OpenAI。因為人工智能領域正在發生一些非常有趣的事,我們想引導它向積極的方向發展。
從那天到現在,整個領域取得了難以置信的進展,令人驚嘆。
人們為之興奮,也為之擔憂。這也是我們所感受到的。
最重要的是,我們似乎正在進入一個歷史性時期,全世界都在定義一個對人類社會的未來至關重要的技術。
我相信我們可以善加引用這項技術。
今天我想向你們展示的,就是這項技術最新的進展,以及一些我們一直秉承的基本設計原則。
01
教會 AI 使用工具
首先,我想展示,如何為 AI 開發工具,而不是為人類開發工具。
Greg 展示了如何用 ChatGPT 策劃一頓晚飯,用 Dall-E 繪制出來,用第三方插件列出制作這頓晚飯的菜單,并發布到推特上。
所有這些動作,都由 ChatGPT 自動完成,但用戶又可以在每一個關鍵動作中介入操作。
我們繼續。前面展示的這個案例,關鍵不僅僅在于如何創建工具,更重要的是如何教會 AI 使用它們。
(它需要理解)當我們在問這些相對復雜的問題時,我們究竟想讓它做些什么?
為此,我們使用了一種古老的想法。
如果你回看阿蘭·圖靈 1950 年關于圖靈測試的論文,他說,你永遠不會為這個問題編寫答案。,相反,你可以學習。你可以設計一個機器,就像一個人類孩子一樣,然后通過反饋來教它。
讓一個人類老師在它嘗試和做出好或壞的事情時提供獎勵和懲罰。這正是我們如何訓練 ChatGPT 的方法。
這是一個兩步流程。
第一步,我們通過無監督學習過程生成了圖靈所謂的兒童機器。
我們只是向它展示整個世界、整個互聯網,并說:「預測你從未見過的文本中的下一個內容?!?/p>
這個過程賦予了它各種厲害的技能。
比如這個數學問題,問它下一個詞是什么?那個綠色的「9」,就是數學問題的答案。
但是我們還需要做第二步,也就是教 AI 如何使用這些技能。
為此,我們提供反饋。
我們讓 AI 嘗試多種方法,給我們多個建議,然后人類對它們進行評分,說「這個比那個好」。這不僅強化了 AI 所說的具體內容,而且非常重要的是,強化了 AI 用于產生答案的整個過程。這使它能夠概括。它可以推斷你的意圖并將其應用于它以前沒有看到過的情景,那些沒有收到反饋的情況。
現在,有時我們需要教 AI 的東西并不是你所期望的。
例如,當我們首次向可汗學院展示 GPT-4 時,他們說:「哇,這太棒了,我們將能夠教授學生很棒的東西。只有一個問題,它不會檢查學生的數學。如果有錯誤的數學,它會快樂地假裝 1+1 等于 3 并運行它?!?/p>
因此,我們需要收集一些反饋數據。
薩爾·汗本人非常友善,他自己花了 20 小時時間與我們的團隊一起為機器提供反饋。
在幾個月的時間里,我們能夠教會 AI,「嘿,你真的應該在這種特定的情況下反擊人類?!?/p>
通過這種方式,我們實際上對模型進行了很多改進。當你在 ChatGPT 中按下那個不喜歡的大拇指時,實際上就像發送了一個蝙蝠信號給我們的團隊,說「這是一個需要收集反饋的薄弱環節」。
因此,當你這樣做時,這是我們真正傾聽用戶,并確保我們正在構建對每個人都更有用的東西的一種方式。
02
事實核查和人類反饋
提供高質量的反饋是一件困難的事情。如果你讓一個孩子打掃房間,如果你只檢查地板,你不知道你是否只是教他們把所有的玩具都塞進衣柜里。
同樣的推理也適用于人工智能。隨著我們前往更困難的任務,我們必須擴大我們提供高質量反饋的能力。但為此,AI 本身樂意提供幫助。它很樂意幫助我們提供更好的反饋,并隨著時間的推移擴大我們監督機器的能力。
讓我給你展示一下我的意思。
例如,你可以向 GPT-4 提出這樣的問題,即這兩篇關于無監督學習和從人類反饋中學習的基礎博客之間經過了多長時間?
模型說過去了兩個月。但這是真的嗎?就像這些模型并不是 100%可靠一樣,盡管它們每次提供一些反饋就會變得更好。但我們實際上可以使用 AI 進行事實檢查。它可以檢查自己的工作。你可以說,為我核實這一點。
在這種情況下,我實際上給了 AI 一個新工具。這是一個瀏覽工具,模型可以發出搜索查詢并點擊網頁。它實際上會在執行操作時寫出整個思維鏈。它說,我要搜索這個,然后它會進行搜索。然后它找到了出版日期和搜索結果。然后它發出另一個搜索查詢。它將單擊博客文章。你可以做所有這些,但這是一項非常繁瑣的任務。這不是人類真正想做的事情。坐在駕駛座上,處于這個管理者的位置,可以更有趣,如果你愿意,可以再次檢查工作。
引文出現,因此你可以輕松驗證整個推理鏈的任何部分。
結果實際上,兩個月是錯誤的。
(ChatGPT 核查后的答案)兩個月零一周,正確的。
03
重新思考人機交互
對我來說,整個過程最有趣的是它是人類和人工智能之間的多步協作。
因為人類使用這個事實檢查工具是為了為另一個人工智能生產數據,使其對人類更加有用。
我認為這真正展示了一種我們期望在未來更為普遍的形式,即我們將人類和機器非常謹慎地設計成問題的一部分,以及我們希望解決該問題的方式。
我們確保人類提供管理、監督、反饋,機器以可檢查和值得信賴的方式運行。而通過合作,我們能夠創造出更值得信賴的機器。隨著時間的推移,如果我們正確地進行這個過程,我們將能夠解決不可能解決的問題。
多么不可能呢?
我們將重新思考我們與機器交互的幾乎每一個方面。
例如,電子表格。
自 40 年前的 VisiCalc 以來,它們以某種形式存在。我認為它們在那個時候并沒有發生太多變化。
Greg 在 ChatGPT 中上傳了一個表格,記錄了過去 30 年來 167000 篇 AI 領域論文的數據。ChatGPT 使用 Python/ target=_blank class=infotextkey>Python 自動分析數據,理解表格的每一縱列意味著什么,并在 Greg 的指令下繪出了多個可視化圖表。Greg 用非常口語化的文字表達對產出效果的不滿,ChatGPT 理解了他的意思,并自動修改了圖表。
04
人與機器的共同協作
我們未來會怎樣使用這項技術呢?
在這頁 PPT 上,一個人帶著他生病的狗去看獸醫,獸醫卻作出了錯誤的判斷:「我們等等再看看吧?!?/p>
如果狗主人聽了這句話,那只狗就不會活到今天。與此同時,他向 GPT-4 提供了血液檢測和完整的病歷記錄,GPT-4 說:「我不是獸醫,你需要找專業人士,這里有一些假設。」
他把這些信息帶給了第二位獸醫,后者利用這些信息挽救了狗的生命。
這些系統并不完美。你不能過分依賴它們。但這個故事顯示出,一個與醫療專業人員和 ChatGPT 一起進行頭腦風暴的人,能夠取得一個否則不可能實現的結果。
我認為這是我們考慮如何將這些系統整合到我們的世界中時應該反思和思考的事情。
我深信,讓人工智能發揮作用需要大家的參與。這是為了決定我們希望它如何融入,為了制定規則,決定什么是人工智能會做和不會做的事情。
如果聽完演講你只需要記住一句話,那就是:這項技術看起來與人們預期的完全不同。所以我們都必須變得精通。而這也是我們發布 ChatGPT 的原因之一。我相信,我們可以共同實現 OpenAI 的使命,確保人工智能的普及造福全人類。
05
問答環節
演講結束后,TED 主席 Chris Anderson(簡稱 CA) 上臺,與 Greg Brockman (簡稱 GB)做了一個簡短的訪談,下面為訪談內容。
CA:OpenAI 只有小幾百名員工。google 有數千名員工致力于人工智能。為什么是你們開發了這項震驚世界的技術?
GB:事實上,我們都在巨人的肩膀上。毫無疑問,如果你看看算力的進步、算法的進步、數據的進步,所有這些都是整個行業共同努力的結果。
但是在 OpenAI 內部,我們從早期開始就做出了許多非常明智的選擇。
第一個選擇是要直面現實。
我們認真思考了:要取得進展需要什么?我們嘗試了許多行不通的方法,因此你只會看到那些有效的方法。我認為最重要的是讓來自不同背景的人們和諧地協作。
CA:什么時候意識到智能開始出現了?
GB:深度學習,我們一直都覺得自己是一個深度學習實驗室。
如何做到(智能)?我認為在早期,我們不知道。
我們嘗試了很多事情,其中一個人正在訓練一個模型來預測亞馬遜評論中的下一個字符,他得到了一個結果——這是一個句法過程,你會期望模型會預測逗號放在哪里,名詞和動詞在哪里。
但他實際上做出了一個最先進的情感分析分類器。這個模型可以告訴你一個評論是積極的還是消極的。
今天我們聽到這個,就覺得,得了吧,任何人都可以做到這一點。
但這是你第一次看到這種語義從潛在的句法過程中出現的情況。從那時起,我們知道,你必須擴大這個東西,看看它會走到哪里。
CA:我們很多人都有一個困擾。這東西(ChatGPT)被叫做預測(下一個詞的)機器,但是從它展現的能力來看,它不可能只是一臺預測機器。
涌現思想的關鍵在于,當數量達到一定程度時,會出現意外的情況。像螞蟻,一支螞蟻到處跑和一群螞蟻的行動是完全不同的。城市也是,房屋數量增加,會出現郊區、文化中心、交通擁堵。
你能告訴我讓你都大吃一驚的意外涌現是什么情況嗎?
GB:在 ChatGPT 中,如果您嘗試添加 40 位數字,該模型將能夠執行它,表明它已經學習了一個「內部電路」(internal circuit)來進行加法。然而,如果您讓它做 40 位數字和一個 35 位數字的加法,它經常會出錯。
這表明雖然它正在學習這個過程,但它還沒有完全泛化。
它不可能記住 40 位數字的加法表,這比宇宙中所有原子的數量還要多。所以它必須學會一些基本規律,(這個案例表明)它還沒完全學會,不能理解任意數字是如何相加的。
CA:所以在這里發生的事情是,你讓它擴大規模并分析了大量的文本。結果,它正在學習你沒有預料到它能學到的東西。
GB:嗯,是的,這也更加微妙。我們開始擅長的一門科學是預測新興能力。
要做到這一點,工程質量至關重要,而且這個領域經常被忽視。我們不得不重建整個堆棧,就像建造火箭一樣,每個公差都必須非常小。
在機器學習中也是如此,在進行預測之前,必須正確地設計每個堆棧的每個組件。有許多平滑的擴展曲線告訴我們智能的一些基本特征。你們可以在我們的 GPT-4 博客文章中看到這些曲線。
現在,我們能夠通過查看比例小 10000 或 1000 倍的模型來預測編碼問題的性能。雖然現在還處于早期階段,但這其中的一些特點是平穩的。
CA: 一個大的擔憂是隨著規模的擴大,可能會出現一些你能夠預測但仍然有可能讓你驚訝的事情。這是正在發生的事情的基礎。但為什么沒有出現真正可怕的巨大風險呢?
GB:我認為這些都是程度,規模和時間的問題。
人們似乎忽視了與世界的整合作為一個非常強大和新興的因素。這就是我們認為逐步部署非常重要的原因之一。
目前,我的重點是提供高質量的反饋。對于我們今天所做的任務,檢查它們很容易。例如,對于數學問題的答案為七,這很簡單。然而,監督總結一本書等任務則很困難。你怎么知道書的總結是否好呢?你必須閱讀整本書,但是沒有人想這樣做(笑)。
因此,逐步進行是很重要的。當我們轉向書的概要時,我們需要適當監督這項任務,并與機器建立一個記錄,以確保它們能夠執行我們的意圖。我們必須生產出更好、更有效、更可靠的擴展方法,使機器與我們相一致。
CA:在這個會話的后面,我們將聽到批評者聲稱系統內部沒有真正的理解。他們認為我們永遠不會知道系統是否會產生錯誤或者缺乏常識。格雷格,你是否相信這是真的,但是隨著規模的擴大,再加上人類的反饋,系統最終將以高度的自信實現真相和智慧?你能確定這一點嗎?
GB:是的,我認為 OpenAI 正在朝著這個方向發展。OpenAI 的方法是讓現實打在臉上,因為這個領域充滿了空洞的承諾。專家們已經說了 70 年,神經網絡不會起作用,但他們仍然沒有被證明是正確的。也許還需要 70 年或更長時間才能證明他們是正確的。我們的方法始終是推動這項技術的極限,以看到它的實際效果,以便我們可以轉向新的范式。我們尚未發掘出這項技術的全部潛力。
CA:我的意思是,你們所持的立場非常具有爭議性。正確的做法是將其公之于眾,然后利用所有這些反饋,而不僅僅是你的團隊提供反饋。現在世界正在提供反饋。但是,如果壞事要出現,它們將會出現。
我最初聽說的 OpenAI 的故事是,你們成立為非營利組織,成為對使用 AI 進行未知、可能是邪惡的事情的大公司的重要檢查。如果有必要,你們將建立模型來追究他們的責任,并減緩該領域的發展速度?;蛘咧辽伲鞘俏衣牭降?。
然而,發生的事情恰恰相反。你們發布了 GPT,特別是 ChatGPT,震驚了科技界,現在谷歌、Meta 和其他公司正在趕緊跟進。他們的一些批評是,你們強迫他們在沒有適當防護措施的情況下發布這個東西,否則他們就會死亡。
你如何辯稱你們所做的是負責任而不是魯莽的呢?
GB:是的,我們一直在思考這些問題——認真地思考。我不認為我們總能做到完美。但我相信,自從我們開始考慮如何構建造福全人類的人工智能時,有一件事情非常重要:我們應該如何做到這一點?在秘密建造、獲取超強大工具、然后在啟動前評估其安全性的默認計劃似乎令人恐懼和錯誤。我不知道如何執行這個計劃,也許有人知道,但對我來說,另一個方法是我看到的唯一的其他路徑。這種方法是讓現實打在你臉上,給人們時間提出意見,在機器變得完美和超強大之前允許觀察機器的操作。我們已經看到了 GPT-3 的情況,對吧?我們擔心人們會生成錯誤信息或試圖干擾選舉,但實際上,生成的第一件事情是「偉哥」垃圾郵件。(觀眾笑)
CA:偉哥的垃圾郵件卻是很糟糕,但還有比它更糟糕的事情。這里有一個思想實驗供你思考。假設你坐在一個房間里,桌子上有一個盒子。你相信盒子里有一些絕對美好的東西,可以給你的家人和其他人帶來美好的禮物。然而,小字里也有一百分之一的可能性,盒子里裝的是「潘多拉」,它可能會釋放出難以想象的惡魔。你會打開這個盒子嗎?
GB:絕對不。我認為你不應該那樣做。
讓我告訴你一個我之前沒有分享過的故事。我們剛開始開放人工智能時,我在波多黎各參加了一個人工智能會議。我坐在酒店房間里,看著美麗的海水和人們玩樂。有一瞬間,我想知道我更喜歡哪個:五年內或五百年內打開人工智能的潘多拉之盒。一方面,有些人可能更喜歡它五年后開啟。但是如果它在五百年后,人們會有更多時間來做正確的事情。你會選擇哪一個?在那一刻,我意識到我會選擇五百年。
當時,我哥哥在軍隊中,比我們任何一位技術開發者更真實地冒著生命危險。因此,我非常相信謹慎地開發人工智能。但是,我認為我們沒有準確評估情況。在計算機歷史上,這種轉變是整個行業,甚至是技術發展的人類范疇。如果我們不能把已有的技術整合起來,我們就會面臨一個過剩的局面。我們仍在制造更快的計算機和改進算法,如果我們不整合它們,其他人就會。當他們這樣做時,我們將擁有一種非常強大的技術,沒有任何安全措施。
當你考慮其他技術的發展,例如核武器,人們談論它是人類能做的從零到一的變化。但我認為能力一直在平穩地增長。我們開發的每一項技術的歷史都是漸進的,我們不得不在每個發展階段進行管理。
CA:所以,如果我理解正確,你想讓我們遵循的模型是,我們生下了一個非凡的孩子,可能具有能夠將人類帶到一個全新層次的超能力。我們有集體責任為這個孩子提供指導,并教導它做出明智的決定,以免它毀滅我們所有人。這是基本的想法嗎?
GB:我相信這是真的。同時也要認識到這可能會改變。我們需要針對每一個步驟來處理。今天,至關重要的是我們變得熟悉這項技術,確定如何提供反饋,并決定我們想從中得到什么。我希望這仍然是最佳的行動方案,但很積極我們正在進行這個討論,否則這個討論就不會發生。