近期,關于OpenAI最新推出的o1模型正式版及Pro版的性能表現,引發了廣泛討論。盡管官方宣傳中不乏亮點,但實際數據揭示的模型提升幅度卻略顯保守。
具體而言,o1正式版在數學與編程領域確實取得了顯著進步,但在處理博士級別問題的能力上,其提升幅度卻相當有限。即便是隨后推出的Pro版本,也只是在各方面對正式版做了小幅優化,并未帶來顛覆性的改變。這一現狀,無疑讓不少期待o1能在博士級問題上大放異彩的用戶感到失望。
回顧o1模型發布之初,其主打的就是能夠在博士級別的問答中展現卓越能力。然而,從正式版到Pro版,這一方面的提升并不明顯,這無疑讓用戶的期望落空。此前,知危編輯部曾邀請來自清華、北大、南京大學的博士對o1預覽版進行測試,他們一致認為,o1在思維和知識儲備上已達到博士水準,但在課題探索和提供研究思路方面仍有不足,未能真正達到“做學術”的標準。
盡管在回答能力上提升有限,但o1正式版在用戶體驗方面卻有了顯著提升。其重大錯誤犯錯率較預覽版減少了約34%,回答速度也提高了約50%。在直播現場對比測試中,面對“列出二世紀的羅馬皇帝,包括他們的時期和成就”這一問題,o1正式版僅用14秒便給出了回答,比預覽版快了近20秒,這一差距讓用戶感受明顯。
在回答的可靠性上,o1正式版也展現出了顯著進步。通過“4/4可靠性”測試,o1正式版在各個領域都比預覽版有了顯著提升,而Pro版則更進一步。這一進步,無疑增強了用戶對o1模型的信任度。
除了用戶體驗的提升,o1正式版還支持了多模態輸入,用戶可以通過圖+文字的形式向模型提問。在直播現場,OpenAI團隊展示了一張“太空數據中心”草圖,并詢問了關于散熱器面積的問題。o1模型迅速捕捉到了圖中的關鍵信息,并給出了詳細的回答,其回答不僅準確,還考慮到了多種可能影響散熱效果的因素。
測試草圖
由于o1 Pro模型的思考深度更高,耗時更長,為了提升用戶體驗,OpenAI為其加入了回答進度條。這一設計,有效緩解了用戶在等待回答時的焦慮情緒,成為OpenAI此次更新中的一大亮點。