當地時間5月13日,OpenAI通過直播展示了產品更新。與此前傳出的市場消息不同,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是發布了GPT-4系列新模型GPT-4o以及AI聊天機器人ChatGPT的桌面版本,聚焦多模態和端側應用。
此前OpenAI公司CEO奧爾特曼(Sam Altman)就已經否認了公司將會發布GPT-5,他表示新版GPT非常“神奇”。根據OpenAI官方網站介紹,GPT-4o中的“o”代表Omni,也就是“全能”的意思。
據介紹,GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。OpenAI CEO奧爾特曼(Sam Altman)在博客中表示,ChatGPT免費用戶也能用上新發布的GPT-4o。此外,OpenAI還與蘋果走到一起,推出了適用于macOS的桌面級應用。
OpenAI技術負責人Mira Murati在直播中表示:“這是我們第一次在易用性方面真正邁出的一大步。”
價格低于GPT-4 Turbo
OpenAI研究員Mark Chen表示,新模型具有“感知情緒”的能力,能輸出笑聲、歌唱或表達情感,還可以處理用戶打斷它的情況。
在直播中,OpenAI演示了一段OpenAI員工與GPT-4o對話的視頻,模型反應速度與人類相近,GPT-4o可利用手機攝像頭描述其“看到”的東西。
另一段展示視頻里,GPT-4o被裝在兩個手機上,其中一個代表人類與電信公司打電話溝通設備更換事項,另一個GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機上的實時翻譯能力。
根據OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語音對談機制不同。GPT-3.5和GPT-4會先將音頻轉換為文本,再接收文本生成文本,最后將文本轉換為音頻,經歷這三個過程,音頻中的情感表達等信息會被折損,而GPT-4o是跨文本、視覺和音頻的端到端模型,是OpenAI第一個綜合了這些維度的模型,可更好進行對談。
OpenAI將GPT-4o定位為GPT-4性能級別的模型。據介紹,GPT-4o在傳統基準測試中,文本、推理、編碼能力達到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時,平均320毫秒響應音頻輸入,與人類對話中的響應時間相似,英文文本和代碼能力與GPT-4 Turbo相當,在非英文文本上有改善,提高了ChatGPT針對50種不同語言的質量和速度,并通過OpenAI的API提供給開發人員,使其即時就可以開始使用新模型構建應用程序。
第一財經記者在OpenAI官網看到,GPT-4o輸入、輸出每1M token(文本單位)收費0.005美元、0.015美元,GPT-4 Turbo輸入、輸出每1M token收費0.01美元、0.03美元。
“在過去兩年中,我們花了大量精力在堆棧的每一層上提高-效率,作為這項研究的第一個成果,我們能使GPT-4級別的模型更廣泛應用,GPT-4o即日起擴展紅隊訪問權限。”OpenAI官網稱,GPT-4o的文本和圖像功能今日在ChatGPT中推出,“我們計劃在未來幾周內在API中向一小部分值得信賴的合作伙伴推出對GPT-4o新音頻和視頻功能的支持。”
第一財經記者在ChatGPT網站看到,ChatGPT已接入GPT-4o有限訪問權限,但免費用戶還不能使用圖片生成功能。
記者使用了GPT-4o來描述圖片,發現其生成結果較準確,5秒左右就能生成描述圖片的文字。
此外,OpenAI還宣布推出一款適用于macOS的桌面級應用,使用鍵盤快捷鍵就可向ChatGPT提問。用戶可通過電腦與ChatGPT語音對話,GPT-4o的新音頻和視頻功能后續將推出。OpenAI已向Plus用戶推出macOS應用程序,今年晚些時候還將推出Windows版本。
值得注意的是,近日還有消息傳出蘋果與OpenAI商談,以便在下一代iPhone操作系統使用ChatGPT功能。此次OpenAI重點展示了大模型在手機端側應用的能力。
不過,此次OpenAI并未發布關于新模型的論文或技術文檔。
今日,OpenAI特別強調了新模型的風險和局限性。該公司稱:“GPT-4o的音頻模式帶來了各種新的風險。在接下來的幾周和幾個月里,我們將更關注技術基礎設施、培訓后的可用性以及發布其他模式所需的安全性。例如,在發布時,音頻輸出將僅限于選擇預設的聲音,并將遵守我們現有的安全政策。”
發力端側應用
不少科技界人士發表了對OpenAI此次產品更新的看法。“我沒想到GPT-4o會接近GPT-5。傳聞中OpenAI的‘Arrakis’模型就采用多模態輸入和輸入。事實上,它可能是GPT-5的一個早期檢查點(checkpoint),尚未完成訓練。”英偉達高級科學家Jim Fan在社交媒體上評論稱。
Jim Fan認為,在谷歌召開I/O大會前,OpenAI寧愿發布超過人們對GPT-4.5心理預期的產品,也不愿因為推出達不到人們期望的GPT-5,而讓人感到失望。此外,誰先贏得蘋果,誰就將大獲全勝,與iOS整合有幾個層次,例如拋棄Siri,OpenAI為iOS提煉出一個更小層級、設備上運行的GPT-4o。雖然此次未公開相關論文,加利福尼亞大學圣克魯茲分校教授Xin Eric Wang還是評論認為,一個演示勝過千篇論文。
“比較讓人失望的是,這次OpenAI沒有發布GPT-5,連GPT-4.5都沒看到。OpenAI發布了一系列應用,最重要的是發布了語音助手,由于使用了端到端大模型技術,體驗遠超Siri。OpenAI發布應用,恰恰說明應用在人工智能領域大有可為。目前看來,GPT-5可能還要‘難產’一段時間。”獵豹移動董事長兼CEO傅盛表示。
近期業內對大模型在既有參數下推動應用落地、商業變現多有討論。OpenAI在繼續研發下一代更大參數模型GPT-5的同時,也在推動價格下降、應用場景和用戶群體擴大。
從API價格看,GPT-3.5 Turbo輸入、輸出每1M token(文本單位)收費0.0005美元、0.0015美元,GPT-4為0.03美元、0.06美元,GPT-4之后定價就持續下降。今年4月,OpenAI還宣布ChatGPT無需注冊便可使用,此舉被業界解讀為擴大用戶群體的努力,或其算力成本得到一定下降。此次產品更新后,奧爾特曼在其博客中強調,OpenAI使命的一個關鍵部分是讓強大的人工智能工具免費,或以一個不錯的價格推出。
包括OpenAI推出macOS桌面級應用在內,業內近期對大模型落地端側多有期待。蘋果就多次傳出與大模型廠商洽談合作,蘋果自身還在端側小模型領域布局,并推出可支持AI運行、性能更強的M4芯片。
近日一場對談中,金沙江創投主管合伙人朱嘯虎也判斷,此前Meta發布的Llama3系列兩個小模型性能強大,iPad Pro則用了M4芯片,以后端側可能就直接跑一個小模型了。幾百億參數的小模型也可在端側直接跑,尤其是今年下半年iPhone新品可能就類似,明年應用層將會爆發。
【來源:第一財經資訊】