78精品国产综合久久香蕉,欧美国产日韩一区二区2024,中文一本无码AV

昨天，很多人徹夜未眠 —— 全球科技圈都把目光聚焦在了美國舊金山。

短短 45 分鐘時(shí)間里，AI target=_blank class=infotextkey>OpenAI CEO 山姆?奧特曼向我們介紹了迄今為止最強(qiáng)的大模型，和基于它的一系列應(yīng)用，一切似乎就像當(dāng)初 ChatGPT 一樣令人震撼。

OpenAI 在本周一的首個(gè)開發(fā)者日上推出了 GPT-4 Turbo，新的大模型更聰明，文本處理上限更高，價(jià)格也更便宜，應(yīng)用商店也開了起來。現(xiàn)在，用戶還可以根據(jù)需求構(gòu)建自己的 GPT。

根據(jù)官方說法，這一波 GPT 的升級(jí)包括：

更長的上下文長度：128k，相當(dāng)于 300 頁文本。
更高的智能程度，更好的 JSON / 函數(shù)調(diào)用。
更高的速度：每分鐘兩倍 token。
知識(shí)更新：目前的截止日期為 2023 年 4 月。
定制化：GPT3 16k、GPT4 微調(diào)、定制模型服務(wù)。
多模態(tài)：Dall-E 3、GPT4-V 和 TTS 模型現(xiàn)已在 API 中。
Whisper V3 開源（即將推出 API）。
與開發(fā)者分享收益的 Agent 商店。
GPT4 Turbo 的價(jià)格約是 GPT4 的 1/3。

發(fā)布會(huì)一開完，人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗(yàn)果然不同凡響。首先是快，快到和以前所有大模型拉開了代差：

然后是功能增多，畫畫的時(shí)候，你一有靈感就可以直接說話讓 AI 負(fù)責(zé)實(shí)現(xiàn)：

設(shè)計(jì)個(gè) UI，幾個(gè)小時(shí)的工作變成幾分鐘：

我直接不裝了，截個(gè)圖復(fù)制粘貼別人的網(wǎng)站，生成自己的，只用 40 秒：

利用 ChatGPT 與 Bing 的瀏覽功能以及與 DALL-E 3 圖像生成器的集成，沃頓商學(xué)院教授 Ethan Mollick 分享了一段視頻，展示了他的名為「趨勢(shì)分析器」的 GPT 工具，其可查找市場(chǎng)特定細(xì)分市場(chǎng)的趨勢(shì)，然后創(chuàng)建新產(chǎn)品的原型圖像。

Octane AI 首席執(zhí)行官 Matt Schlicht 的 Simponize Me GPT 會(huì)自動(dòng)應(yīng)用提示來轉(zhuǎn)換用戶上傳的個(gè)人資料照片，生成《辛普森一家》的風(fēng)格，做這個(gè)小應(yīng)用只用了不到十分鐘。

GPT-4 Turbo 具有創(chuàng)紀(jì)錄的準(zhǔn)確率，在 PyLLM 基準(zhǔn)上，GPT-4 Turbo 的準(zhǔn)確率是 87%，而 GPT-4 的準(zhǔn)確率是 52%，這是在速度幾乎快了四倍多的情況下（每秒 48 token）實(shí)現(xiàn)的。

至此，生成式 AI 的競爭似乎進(jìn)入了新的階段。很多人認(rèn)為，當(dāng)競爭對(duì)手們依然在追求更快、能力更強(qiáng)的大模型時(shí)，OpenAI 其實(shí)早就已經(jīng)把所有方向都試過了一遍，這一波更新會(huì)讓一大批創(chuàng)業(yè)公司作古。

也有人表示，既然 Agent 是大模型重要的方向，OpenAI 也開出了 Agent 應(yīng)用商店，接下來在智能體領(lǐng)域，我們會(huì)有很多機(jī)會(huì)。

競爭者們真的無路可走了嗎？價(jià)格降低，速度變快以后，大模型的性能還能同時(shí)變得更好？這必須要看實(shí)踐，在 OpenAI 的博客中，其實(shí)說法是這樣的：在某些格式的輸出下，GPT-4 Turbo 會(huì)比 GPT-4 結(jié)果更好。那么總體情況會(huì)如何？

在新模型發(fā)布的 24 小時(shí)內(nèi)，就有研究者在 Aider 上進(jìn)行了 AI 生成代碼的能力測(cè)試。

在 gpt-4-1106-preview 模型上，僅使用 diff 編輯方法對(duì) GPT-4 模型進(jìn)行基準(zhǔn)測(cè)試得出的結(jié)論是：

新的 gpt-4-1106-preview 模型似乎比早期的 GPT-4 模型快得多；
第一次嘗試時(shí)似乎更能生成正確的代碼，能正確完成大約 57% 的練習(xí)，以前的模型在第一次嘗試時(shí)只能正確完成 46-47% 的練習(xí)；
在通過檢查測(cè)試套件錯(cuò)誤輸出獲得第二次糾正錯(cuò)誤的機(jī)會(huì)后，新模型的表現(xiàn) (~66%) 似乎與舊模型 (63-64%) 相似。

接下來是使用 whole 和 diff 編輯格式對(duì) GPT-3.5 模型進(jìn)行的基準(zhǔn)測(cè)試。結(jié)果表明，似乎沒有一個(gè) gpt-3.5 模型能夠有效地使用 diff 編輯格式，包括最新的 11 月出現(xiàn)的新模型（簡稱 1106）。下面是一些 whole 編輯格式結(jié)果：

新的 gpt-3.5-turbo-1106 型號(hào)完成基準(zhǔn)測(cè)試的速度比早期的 GPT-3.5 型號(hào)快 3-4 倍；
首次嘗試后的成功率為 42%，與之前的 6 月 (0613) 型號(hào)相當(dāng)。1106 模型和 0613 模型都比原來的 0301 第一次嘗試的結(jié)果更差，為 50%；
新模型在第二次嘗試后的成功率為 56%，似乎與 3 月的模型相當(dāng)，但比 6 月的模型要好一些，6 月的模型為 50% 得分。

這項(xiàng)測(cè)試是如何進(jìn)行的呢，具體而言，研究者讓 Aider 嘗試完成 133 個(gè) Exercism Python/ target=_blank class=infotextkey>Python 編碼練習(xí)。對(duì)于每個(gè)練習(xí)，Exercism 都提供了一個(gè)起始 Python 文件，文件包含所要解決問題的自然語言描述以及用于評(píng)估編碼器是否正確解決問題的測(cè)試套件。

基準(zhǔn)測(cè)試分為兩步：

第一次嘗試時(shí)，Aider 向 GPT 提供要編輯的樁代碼文件以及描述問題的自然語言指令。這些指令反映了用戶如何使用 Aider 進(jìn)行編碼。用戶將源代碼文件添加到聊天中并請(qǐng)求更改，這些更改會(huì)被自動(dòng)應(yīng)用。

如果測(cè)試套件在第一次嘗試后失敗，Aider 會(huì)將測(cè)試錯(cuò)誤輸出提供給 GPT，并要求其修復(fù)代碼。Aider 的這種交互式方式非常便捷，用戶使用 /run pytest 之類的命令來運(yùn)行 pytest 并在與 GPT 的聊天中共享結(jié)果。

然后就有了上述結(jié)果。至于 Aider ，對(duì)于那些不了解的小伙伴，接下來我們簡單介紹一下。

Aider 是一個(gè)命令行工具，可以讓用戶將程序與 GPT-3.5/GPT-4 配對(duì)，以編輯本地 git 存儲(chǔ)庫中存儲(chǔ)的代碼。用戶既可以啟動(dòng)新項(xiàng)目，也可以使用現(xiàn)有存儲(chǔ)庫。Aider 能夠確保 GPT 中編輯的內(nèi)容通過合理的提交消息提交到 git。Aider 的獨(dú)特之處在于它可以很好地與現(xiàn)有的更大的代碼庫配合使用。

簡單總結(jié)就是，借助該工具，用戶可以使用 OpenAI 的 GPT 編寫和編輯代碼，輕松地進(jìn)行 git commit、diff 和撤消 GPT 提出的更改，而無需復(fù)制 / 粘貼，它還具有幫助 GPT-4 理解和修改更大代碼庫的功能。

為了達(dá)到上述功能，Aider 需要能夠準(zhǔn)確地識(shí)別 GPT 何時(shí)想要編輯用戶源代碼，還需要確定 GPT 想要修改哪些文件并對(duì) GPT 做出的修改進(jìn)行準(zhǔn)確的應(yīng)用。然而，做好這項(xiàng)「代碼編輯」任務(wù)并不簡單，需要功能較強(qiáng)的 LLM、準(zhǔn)確的提示以及與 LLM 交互的良好工具。

操作過程中，當(dāng)有修改發(fā)生時(shí)，Aider 會(huì)依靠代碼編輯基準(zhǔn)（code editing benchmark）來定量評(píng)估修改后的性能。例如，當(dāng)用戶更改 Aider 的提示或驅(qū)動(dòng) LLM 對(duì)話的后端時(shí)，可以通過運(yùn)行基準(zhǔn)測(cè)試以確定這些更改產(chǎn)生多少改進(jìn)。

此外還有人使用 GPT-4 Turbo 簡單和其他模型對(duì)比了一下美國高考 SAT 的成績：

同樣，看起來聰明的程度并沒有拉開代差，甚至還有點(diǎn)退步。不過必須要指出的是，實(shí)驗(yàn)的樣本數(shù)量很小。

綜上所述，GPT-4 Turbo 的這一波更新更重要的是完善了功能，增加了速度，準(zhǔn)確性是否提高仍然存疑。這或許與整個(gè)大模型業(yè)界目前的潮流一致：重視優(yōu)化，面向應(yīng)用。業(yè)務(wù)落地速度慢的公司要小心了。

另一方面，從這次開發(fā)者日的發(fā)布內(nèi)容來看，OpenAI 也從一個(gè)極度追求前沿技術(shù)的創(chuàng)業(yè)公司，變得開始關(guān)注起用戶體驗(yàn)和生態(tài)構(gòu)建，更像大型科技公司了。

再次顛覆 AI 領(lǐng)域的 GPT-5，我們還得再等一等。

參考內(nèi)容：

https://venturebeat.com/ai/what-can-you-make-with-openais-gpt-builder-5-early-examples/

https://aider.chat/docs/benchmarks-1106.html

https://weibo.com/2194035935/N8pSZCdxH

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

用過GPT-4 Turbo以后，我們?cè)僖不夭蝗チ?/h2>
發(fā)布時(shí)間：2023-11-09 22:16:13 作者：網(wǎng)友整理

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績?cè)u(píng)定2018-06-03