【ITBEAR科技資訊】7月31日消息,OpenAI于當地時間7月30日公布,即日起啟動GPT-4o語音模式(Alpha版)的初步測試,對部分ChatGPT Plus用戶開放,計劃在今年秋季將該功能全面推送給所有ChatGPT Plus的訂閱用戶。
這一全新的語音模式是建立在GPT-4o模型基礎上的,該模型是OpenAI最新的跨文本、視覺和音頻的端到端統一模型。OpenAI的首席技術官米拉?穆拉蒂在早前的演講中闡述,GPT-4o的獨特之處在于它使用一個神經網絡處理所有類型的輸入和輸出,無論是文本、圖像還是音頻。
據ITBEAR科技資訊了解,GPT-4o作為公司首個集多模式于一體的模型,目前仍在探索其功能與限制的初級階段。原定于6月底的GPT-4o語音模式測試因需進一步完善模型和提高內容過濾能力而被推遲。此次推出的語音模式旨在顯著減少語音反饋的延遲,提升對話的流暢性,為用戶提供近乎無縫的交流體驗。
先前的數據顯示,GPT-3.5模型的語音反饋平均延遲為2.8秒,而GPT-4則達到了5.4秒,這對于語音交流來說顯然不夠理想。然而,GPT-4o語音模式的推出預計將極大地改善這一狀況。
此外,OpenAI發言人林賽?麥卡勒姆強調,新推出的GPT-4o語音模式不僅反應迅速,聲音自然,更能感知語音中的情感語調,如悲傷、興奮甚至是歌唱。同時,她也明確指出,ChatGPT不會冒充他人聲音,系統會阻止與預設聲音不符的輸出,以確保使用的合規性和安全性。