隨著高考的落幕,全國各地的高三學子們終于可以卸下沉重的負擔,輕松迎接假期。與往年不同的是,今年的高考戰(zhàn)場上還有一支與眾不同的隊伍引人注目——國產(chǎn)人工智能大模型。
在這場特殊的高考中,包括搜狐科技、瀟湘晨報、量子位等多家權威媒體對近10款國產(chǎn)人工智能大模型進行了高考作文、數(shù)學、物理三個科目的評測,并公布了成績。我們來一起回顧一下:
首先進行的是高考作文的評測。在搜狐科技的評測中,三位資深語文教師作為權威專家為各大模型的作文打分。騰訊元寶和百度文心一言以超過50分的成績位居前列,智譜清言、字節(jié)豆包與訊飛星火則并列第三。Kimi、阿里通義、百川、海螺排名相對靠后。
而在瀟湘晨報的“AI寫作”評測中,訊飛星火不僅平均分位居首位,且獲得了全場最高分56分。瀟湘晨報邀請湖南知名作家、編輯作為閱卷老師,對國內(nèi)五大AI大模型產(chǎn)品——百度文心一言、訊飛星火、阿里通義千問、字節(jié)豆包、騰訊元寶的高考作文進行評分,經(jīng)過四位閱卷老師的綜合打分,訊飛星火以49分的平均分高居首位。
給訊飛星火打出“全場最高分”56分的閱卷老師表示:“本文觀點清晰,論述集中且層層推進,很多句子都簡潔有力,頗有思想性。如果是某個學生寫的,無疑是難得的佳作。”另外,從網(wǎng)友的熱門評論中也能看出訊飛星火摘得高分的原因。
網(wǎng)友@2024:感覺星火好點,更像作文,有些更像回答問題。
網(wǎng)友@煙花綻放的節(jié)日:訊飛星火更有高考味。
接下來是數(shù)學科目的較量。在搜狐科技的數(shù)學評測中,訊飛星火、文心一言、豆包均以63%的正確率位列第一梯隊,智譜清言、阿里通義則以50%的正確率位居第二梯隊,其他大模型相對落后。
在量子位的高考數(shù)學評測中,雖然沒有給出詳細成績單,但展示了各家大模型詳細的解題思路,交由網(wǎng)友打分,通過網(wǎng)友的投票打分可以看出,訊飛星火的“識圖+解數(shù)學題”能力收到了最高認可,位居其后的分別是Kimi、通義千問、文心一言、豆包等。
最后是高考物理的測試。在量子位的評測中,阿里通義千問與訊飛星火以71.4%的準確率高居第一梯隊,而Kimi、海螺和騰訊元寶則以42.9%的準確率位于第二梯隊。百川百小應和萬知答對一題位于第三梯隊。
文心一言、豆包、天工、智譜清言、商量因為出現(xiàn)了不同程度讀圖失敗的問題,在成功識別的題目中,商量和文心一言的正確率為2/4,即正確率為28.6%;豆包、天工、智譜清言正確率為1/2,即正確率為14.3%。
綜合以上媒體在作文、數(shù)學、物理三門科目的成績,我們得出了2024年人工智能大模型高考“成績單”。來自科大訊飛的訊飛星火以52.49分高居第一名,通義千問、文心一言分別位列第二、第三名,而Kimi、字節(jié)豆包、海螺AI等其他大模型也有不錯的表現(xiàn)。
第一名:52.49 訊飛星火
第二名:46.08 通義千問
第三名:37.67 文心一言
第四名:34.68 Kimi
第五名:33.57 字節(jié)豆包
第六名:31.92 海螺AI
第七名:30.61 騰訊元寶
第八名:30.28 智譜清言
第九名:21.56 百川百小應
盡管評測方式可能不夠嚴謹科學,但這次大模型高考無疑展示了國產(chǎn)人工智能在多個學科的優(yōu)秀表現(xiàn)和長足進步,尤其是訊飛星火的表現(xiàn)堪稱“文理兼修”!期待國產(chǎn)大模型再接再厲,在明年的高考中取得更加出色的成績!