日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52010
  • 待審:67
  • 小程序:12
  • 文章:1106242
  • 會(huì)員:784

【ITBEAR】9月25日消息,近日,亞利桑那州立大學(xué)的科研團(tuán)隊(duì)利用PlanBench基準(zhǔn)對(duì)OpenAI的o1模型進(jìn)行了規(guī)劃能力的測試。測試結(jié)果顯示,盡管o1模型在某些方面取得了顯著的進(jìn)步,但其仍然存在較大的局限性。

PlanBench基準(zhǔn)于2022年開發(fā),主要用于評(píng)估人工智能系統(tǒng)在規(guī)劃方面的能力。該基準(zhǔn)包含了600個(gè)來自Blocksworld領(lǐng)域的任務(wù),要求積木必須按照特定的順序進(jìn)行堆疊。

據(jù)ITBEAR了解,在Blocksworld任務(wù)中,OpenAI的o1模型展現(xiàn)出了驚人的表現(xiàn),其準(zhǔn)確率高達(dá)97.8%,遠(yuǎn)遠(yuǎn)超過了之前的最佳語言模型LLaMA 3.1 405B的62.6%。在更具挑戰(zhàn)性的“Mystery Blocksworld”加密版本中,傳統(tǒng)模型幾乎全部失敗,而o1模型的準(zhǔn)確率仍能達(dá)到52.8%。

為了驗(yàn)證o1模型的性能是否源于其訓(xùn)練集中的基準(zhǔn)數(shù)據(jù),研究人員還測試了一種新的隨機(jī)變體。在這次測試中,o1模型的準(zhǔn)確率降至37.3%,但仍遠(yuǎn)超其他得分接近零的模型。

然而,隨著任務(wù)的復(fù)雜性增加,o1模型的表現(xiàn)也急劇下降。在需要20到40個(gè)規(guī)劃步驟的問題上,o1模型在較簡單測試中的準(zhǔn)確率從97.8%驟降至23.63%。此外,該模型在識(shí)別無法解決的任務(wù)方面也顯得力不從心,只有27%的時(shí)間能夠正確識(shí)別,而在54%的情況下,它錯(cuò)誤地生成了完整但不可能完成的計(jì)劃。

盡管o1模型在基準(zhǔn)性能上實(shí)現(xiàn)了顯著的改進(jìn),但它并不能保證解決方案的正確性。與經(jīng)典的規(guī)劃算法相比,如快速向下算法,這些算法可以在更短的計(jì)算時(shí)間內(nèi)實(shí)現(xiàn)完美的準(zhǔn)確性。

研究還指出,o1模型的高資源消耗是一個(gè)不容忽視的問題。運(yùn)行這些測試需要花費(fèi)近1900美元,而經(jīng)典算法在標(biāo)準(zhǔn)計(jì)算機(jī)上運(yùn)行則幾乎不需要任何成本。

研究人員強(qiáng)調(diào),對(duì)人工智能系統(tǒng)進(jìn)行公平比較時(shí),必須綜合考慮準(zhǔn)確性、效率、成本和可靠性。他們的研究結(jié)果表明,盡管像o1這樣的人工智能模型在復(fù)雜推理任務(wù)方面取得了進(jìn)步,但這些能力仍然有待提升。

關(guān)鍵詞:#OpenAI o1模型# #規(guī)劃能力測試# #PlanBench基準(zhǔn)# #局限性# #資源消耗#

分享到:
標(biāo)簽:實(shí)測 率高達(dá) 模型 準(zhǔn)確 能力
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 52010

    網(wǎng)站

  • 12

    小程序

  • 1106242

    文章

  • 784

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定