【ITBEAR】蘋果公司研究團隊近期發(fā)表了一篇深入探討大型語言模型(LLM)在數(shù)學(xué)推理方面局限性的論文。該論文指出,盡管LLM在生成類似人類的文本方面表現(xiàn)出色,但在處理簡單數(shù)學(xué)問題時,若對問題稍作修改,如增添無關(guān)信息,其表現(xiàn)便會顯著下降。
論文中舉了一個例子,當(dāng)詢問“奧利弗三天內(nèi)共摘了多少個奇異果”時,LLM能夠正確計算。然而,一旦加入如“其中5個奇異果比平均小”這樣的無關(guān)細節(jié),LLM便會給出錯誤答案。研究人員對數(shù)百個類似問題進行了修改,并發(fā)現(xiàn)幾乎所有這些修改都導(dǎo)致LLM的回答成功率大幅降低。
研究團隊認為,這一現(xiàn)象顯示出LLM并未真正理解數(shù)學(xué)問題,而是依賴于訓(xùn)練數(shù)據(jù)中的模式進行預(yù)測。當(dāng)需要進行真正的邏輯推理時,模型往往無法得出合理結(jié)果。這一發(fā)現(xiàn)為人工智能的發(fā)展提供了重要的參考依據(jù)。盡管LLM在多個領(lǐng)域都表現(xiàn)出色,但其推理能力仍需進一步提升。