昨天,很多人徹夜未眠 —— 全球科技圈都把目光聚焦在了美國舊金山。
短短 45 分鐘時(shí)間里,AI target=_blank class=infotextkey>OpenAI CEO 山姆?奧特曼向我們介紹了迄今為止最強(qiáng)的大模型,和基于它的一系列應(yīng)用,一切似乎就像當(dāng)初 ChatGPT 一樣令人震撼。
OpenAI 在本周一的首個(gè)開發(fā)者日上推出了 GPT-4 Turbo,新的大模型更聰明,文本處理上限更高,價(jià)格也更便宜,應(yīng)用商店也開了起來。現(xiàn)在,用戶還可以根據(jù)需求構(gòu)建自己的 GPT。
根據(jù)官方說法,這一波 GPT 的升級(jí)包括:
-
更長的上下文長度:128k,相當(dāng)于 300 頁文本。
-
更高的智能程度,更好的 JSON / 函數(shù)調(diào)用。
-
更高的速度:每分鐘兩倍 token。
-
知識(shí)更新:目前的截止日期為 2023 年 4 月。
-
定制化:GPT3 16k、GPT4 微調(diào)、定制模型服務(wù)。
-
多模態(tài):Dall-E 3、GPT4-V 和 TTS 模型現(xiàn)已在 API 中。
-
Whisper V3 開源(即將推出 API)。
-
與開發(fā)者分享收益的 Agent 商店。
-
GPT4 Turbo 的價(jià)格約是 GPT4 的 1/3。
發(fā)布會(huì)一開完,人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗(yàn)果然不同凡響。首先是快,快到和以前所有大模型拉開了代差:
然后是功能增多,畫畫的時(shí)候,你一有靈感就可以直接說話讓 AI 負(fù)責(zé)實(shí)現(xiàn):
設(shè)計(jì)個(gè) UI,幾個(gè)小時(shí)的工作變成幾分鐘:
我直接不裝了,截個(gè)圖復(fù)制粘貼別人的網(wǎng)站,生成自己的,只用 40 秒:
利用 ChatGPT 與 Bing 的瀏覽功能以及與 DALL-E 3 圖像生成器的集成,沃頓商學(xué)院教授 Ethan Mollick 分享了一段視頻,展示了他的名為「趨勢(shì)分析器」的 GPT 工具,其可查找市場(chǎng)特定細(xì)分市場(chǎng)的趨勢(shì),然后創(chuàng)建新產(chǎn)品的原型圖像。
Octane AI 首席執(zhí)行官 Matt Schlicht 的 Simponize Me GPT 會(huì)自動(dòng)應(yīng)用提示來轉(zhuǎn)換用戶上傳的個(gè)人資料照片,生成《辛普森一家》的風(fēng)格,做這個(gè)小應(yīng)用只用了不到十分鐘。
GPT-4 Turbo 具有創(chuàng)紀(jì)錄的準(zhǔn)確率,在 PyLLM 基準(zhǔn)上,GPT-4 Turbo 的準(zhǔn)確率是 87%,而 GPT-4 的準(zhǔn)確率是 52%,這是在速度幾乎快了四倍多的情況下(每秒 48 token)實(shí)現(xiàn)的。
至此,生成式 AI 的競爭似乎進(jìn)入了新的階段。很多人認(rèn)為,當(dāng)競爭對(duì)手們依然在追求更快、能力更強(qiáng)的大模型時(shí),OpenAI 其實(shí)早就已經(jīng)把所有方向都試過了一遍,這一波更新會(huì)讓一大批創(chuàng)業(yè)公司作古。
也有人表示,既然 Agent 是大模型重要的方向,OpenAI 也開出了 Agent 應(yīng)用商店,接下來在智能體領(lǐng)域,我們會(huì)有很多機(jī)會(huì)。
競爭者們真的無路可走了嗎?價(jià)格降低,速度變快以后,大模型的性能還能同時(shí)變得更好?這必須要看實(shí)踐,在 OpenAI 的博客中,其實(shí)說法是這樣的:在某些格式的輸出下,GPT-4 Turbo 會(huì)比 GPT-4 結(jié)果更好。那么總體情況會(huì)如何?
在新模型發(fā)布的 24 小時(shí)內(nèi),就有研究者在 Aider 上進(jìn)行了 AI 生成代碼的能力測(cè)試。
在 gpt-4-1106-preview 模型上,僅使用 diff 編輯方法對(duì) GPT-4 模型進(jìn)行基準(zhǔn)測(cè)試得出的結(jié)論是:
-
新的 gpt-4-1106-preview 模型似乎比早期的 GPT-4 模型快得多;
-
第一次嘗試時(shí)似乎更能生成正確的代碼,能正確完成大約 57% 的練習(xí),以前的模型在第一次嘗試時(shí)只能正確完成 46-47% 的練習(xí);
-
在通過檢查測(cè)試套件錯(cuò)誤輸出獲得第二次糾正錯(cuò)誤的機(jī)會(huì)后,新模型的表現(xiàn) (~66%) 似乎與舊模型 (63-64%) 相似 。
接下來是使用 whole 和 diff 編輯格式對(duì) GPT-3.5 模型進(jìn)行的基準(zhǔn)測(cè)試。結(jié)果表明,似乎沒有一個(gè) gpt-3.5 模型能夠有效地使用 diff 編輯格式,包括最新的 11 月出現(xiàn)的新模型( 簡稱 1106)。下面是一些 whole 編輯格式結(jié)果:
-
新的 gpt-3.5-turbo-1106 型號(hào)完成基準(zhǔn)測(cè)試的速度比早期的 GPT-3.5 型號(hào)快 3-4 倍;
-
首次嘗試后的成功率為 42%,與之前的 6 月 (0613) 型號(hào)相當(dāng)。1106 模型和 0613 模型都比原來的 0301 第一次嘗試的結(jié)果更差,為 50%;
-
新模型在第二次嘗試后的成功率為 56%,似乎與 3 月的模型相當(dāng),但比 6 月的模型要好一些,6 月的模型為 50% 得分。
這項(xiàng)測(cè)試是如何進(jìn)行的呢,具體而言,研究者讓 Aider 嘗試完成 133 個(gè) Exercism Python/ target=_blank class=infotextkey>Python 編碼練習(xí)。對(duì)于每個(gè)練習(xí),Exercism 都提供了一個(gè)起始 Python 文件,文件包含所要解決問題的自然語言描述以及用于評(píng)估編碼器是否正確解決問題的測(cè)試套件。
基準(zhǔn)測(cè)試分為兩步:
第一次嘗試時(shí),Aider 向 GPT 提供要編輯的樁代碼文件以及描述問題的自然語言指令。這些指令反映了用戶如何使用 Aider 進(jìn)行編碼。用戶將源代碼文件添加到聊天中并請(qǐng)求更改,這些更改會(huì)被自動(dòng)應(yīng)用。
如果測(cè)試套件在第一次嘗試后失敗,Aider 會(huì)將測(cè)試錯(cuò)誤輸出提供給 GPT,并要求其修復(fù)代碼。Aider 的這種交互式方式非常便捷,用戶使用 /run pytest 之類的命令來運(yùn)行 pytest 并在與 GPT 的聊天中共享結(jié)果。
然后就有了上述結(jié)果。至于 Aider ,對(duì)于那些不了解的小伙伴,接下來我們簡單介紹一下。
Aider 是一個(gè)命令行工具,可以讓用戶將程序與 GPT-3.5/GPT-4 配對(duì),以編輯本地 git 存儲(chǔ)庫中存儲(chǔ)的代碼。用戶既可以啟動(dòng)新項(xiàng)目,也可以使用現(xiàn)有存儲(chǔ)庫。Aider 能夠確保 GPT 中編輯的內(nèi)容通過合理的提交消息提交到 git。Aider 的獨(dú)特之處在于它可以很好地與現(xiàn)有的更大的代碼庫配合使用。
簡單總結(jié)就是,借助該工具,用戶可以使用 OpenAI 的 GPT 編寫和編輯代碼,輕松地進(jìn)行 git commit、diff 和撤消 GPT 提出的更改,而無需復(fù)制 / 粘貼,它還具有幫助 GPT-4 理解和修改更大代碼庫的功能。
為了達(dá)到上述功能,Aider 需要能夠準(zhǔn)確地識(shí)別 GPT 何時(shí)想要編輯用戶源代碼,還需要確定 GPT 想要修改哪些文件并對(duì) GPT 做出的修改進(jìn)行準(zhǔn)確的應(yīng)用。然而,做好這項(xiàng)「代碼編輯」任務(wù)并不簡單,需要功能較強(qiáng)的 LLM、準(zhǔn)確的提示以及與 LLM 交互的良好工具。
操作過程中,當(dāng)有修改發(fā)生時(shí),Aider 會(huì)依靠代碼編輯基準(zhǔn)(code editing benchmark)來定量評(píng)估修改后的性能。例如,當(dāng)用戶更改 Aider 的提示或驅(qū)動(dòng) LLM 對(duì)話的后端時(shí),可以通過運(yùn)行基準(zhǔn)測(cè)試以確定這些更改產(chǎn)生多少改進(jìn)。
此外還有人使用 GPT-4 Turbo 簡單和其他模型對(duì)比了一下美國高考 SAT 的成績:
同樣,看起來聰明的程度并沒有拉開代差,甚至還有點(diǎn)退步。不過必須要指出的是,實(shí)驗(yàn)的樣本數(shù)量很小。
綜上所述,GPT-4 Turbo 的這一波更新更重要的是完善了功能,增加了速度,準(zhǔn)確性是否提高仍然存疑。這或許與整個(gè)大模型業(yè)界目前的潮流一致:重視優(yōu)化,面向應(yīng)用。業(yè)務(wù)落地速度慢的公司要小心了。
另一方面,從這次開發(fā)者日的發(fā)布內(nèi)容來看,OpenAI 也從一個(gè)極度追求前沿技術(shù)的創(chuàng)業(yè)公司,變得開始關(guān)注起用戶體驗(yàn)和生態(tài)構(gòu)建,更像大型科技公司了。
再次顛覆 AI 領(lǐng)域的 GPT-5,我們還得再等一等。
參考內(nèi)容:
https://venturebeat.com/ai/what-can-you-make-with-openais-gpt-builder-5-early-examples/
https://aider.chat/docs/benchmarks-1106.html
https://weibo.com/2194035935/N8pSZCdxH