4 月 25 日消息,上個月,OpenAI 推出了最新的 AI 聊天機器人 GPT-4,并聲稱該機器人在各種考試中表現異常出色,比如律師考試,研究生入學考試等。然而,根據美國楊百翰大學領導的一項研究,ChatGPT 在會計考試中的表現遠不及人類,甚至還會一本正經的胡說八道,為錯誤的答案辯解。
美國楊百翰大學的會計教授伍德和他的團隊決定對 ChatGPT 進行一次測試,看看它能否回答大學會計課程的考題。他們在社交媒體上發起了一個號召,吸引了來自 14 個國家 186 所教育機構的 327 位合作者參與。他們共提供了 25181 道會計考題,涵蓋了會計信息系統、審計、財務會計、管理會計和稅務等領域。他們還邀請了 BYU 的本科生(包括伍德的女兒杰西卡)向 ChatGPT 輸入了 2268 道教科書上的考題。
結果顯示,ChatGPT 的表現雖然有亮點,但總體上還是不及學生水平。學生的平均分是 76.7%,而 ChatGPT 的平均分只有 47.4%。在 11.3% 的問題上,ChatGPT 的得分高于學生平均分,尤其是在會計信息系統和審計方面。但是,在稅務、財務和管理方面,ChatGPT 就顯得力不從心,可能是因為這些領域需要更多的數學運算能力。在問題類型上,ChatGPT 比較擅長判斷題(68.7% 正確率)和選擇題(59.5% 正確率),但是在簡答題上就很吃力(正確率在 28.7% 到 39.1% 之間)。一般來說,對于需要更高層次思維的問題,ChatGPT 更難回答。有時候,ChatGPT 甚至會為錯誤答案提供權威的解釋,或者對同一個問題給出不同的答案。
“它并不完美,你不能指望它能做所有事情。”杰西卡說,“僅僅依靠 ChatGPT 來學習是愚蠢的。”
IT之家注意到,研究人員還發現了一些其他有趣的現象:
ChatGPT 有時候不知道自己在做數學題,會犯一些荒謬的錯誤,比如在減法問題里加兩個數,或者除法算錯。
ChatGPT 經常會為自己的答案提供解釋,即使它們是錯誤的。有時候,ChatGPT 的描述是正確的,但它卻選擇了錯誤的選項。
ChatGPT 有時候會編造事實。比如,在提供參考文獻時,它會生成一個看起來真實的參考文獻,但其實完全是虛構的,甚至有時候連作者都不存在。
盡管如此,研究人員相信,在未來的版本中,ChatGPT 會在會計問題上有所進步,并解決上述問題。他們認為最有前景的是,這款聊天機器人可以幫助改善教學和學習,比如設計和測試作業,或者用于草擬項目的部分內容。
“這是一個反思的機會,我們要看看我們是否在教授有價值的信息。”研究的合作者之一,BYU 的會計教授拉森說,“這是一種顛覆,我們需要評估我們接下來該怎么做。當然,我還是會有助教,但其工作內容會有所不同。”
這項研究發表在《會計教育問題》雜志上。
【來源:IT之家】