【ITBEAR科技資訊】5月14日消息,OpenAI于今日凌晨的發布會上,揭曉了其最新升級的全能型大模型GPT-4o。GPT-4o中的“o”取自“omni”,該詞源自拉丁語“omnis”,意為“全能”,在英文中常用作詞根,表達“全部”或“所有”的涵義。
這款新模型顯著提升了處理速度和質量,能夠實時對音頻、視覺及文本信息進行推理分析,并支持超過50種語言。相較于前代模型,GPT-4o的反應速度大幅優化。以往GPT-3.5的語音對話平均延遲為2.8秒,GPT-4為5.4秒,且在音頻輸入時,由于處理方式的問題,會丟失大量信息,例如笑聲、歌唱聲以及情感表達等都無法被識別。然而,GPT-4o僅需232毫秒即可對音頻輸入作出響應,這一速度已與人類在對話中的自然反應時間相近,這無疑是對傳統“語音助手”概念的一次深刻革新。
據ITBEAR科技資訊了解,GPT-4o更引入了全新的交互模式,可接受文本、音頻和圖像的組合輸入,并能生成包含文本、音頻和圖像的任意組合輸出,這種人機交互方式無疑更加自然且全面。GPT-4o的能力將向免費用戶開放,但會設定一定的使用量限制。當免費用戶達到使用限額后,系統將自動切換回GPT-3.5。
同時,OpenAI還針對開發者推出了GPT-4o的API,其價格僅為GPT-4-turbo的一半,而速度卻是后者的兩倍,速率限制也提高了五倍。這無疑將大大降低開發者的成本,同時提高效率。
OpenAI還宣布,GPT-4o將在未來幾周內逐步向公眾開放。此外,公司還推出了ChatGPT的桌面版應用,盡管目前僅支持MacOS,但Windows版本也已在緊密籌備中,預計將在不久后亮相。這一系列創新無疑將進一步推動人工智能的普及和應用。