【ITBEAR科技資訊】6月24日消息,近期,一項引人注目的研究揭示了OpenAI最新聊天機器人GPT-4o在道德解釋和建議方面的卓越能力,其表現(xiàn)甚至超越了傳統(tǒng)上被公認(rèn)為道德權(quán)威的人類專家。
據(jù)The Decoder報道,美國北卡羅萊納大學(xué)教堂山分校與艾倫AI研究所的研究團隊展開了兩項研究,深入探討了大型語言模型是否能夠在道德推理方面與人類相媲美,甚至超越。
在第一項研究中,研究人員讓501名美國成年人對比了GPT-3.5-turbo模型與人類參與者在道德解釋方面的表現(xiàn)。結(jié)果出人意料地顯示,大多數(shù)人認(rèn)為GPT的解釋更符合道德準(zhǔn)則,更加值得信賴,且考慮得更為周到。評估者們還認(rèn)為,相較于其他人類,AI的評估更為可靠。盡管差異細(xì)微,但這一發(fā)現(xiàn)標(biāo)志著AI在道德推理方面達(dá)到了與人類相當(dāng),甚至更高的水平。
在第二項更為深入的研究中,研究團隊將OpenAI最新的GPT-4o模型生成的道德建議與《紐約時報》“倫理學(xué)家”專欄中知名倫理學(xué)家Kwame Anthony Appiah的建議進行了對比。900名參與者對50個“倫理困境”的建議質(zhì)量進行了評分。令人震驚的是,GPT-4o在幾乎所有方面都展現(xiàn)出了優(yōu)于人類專家的表現(xiàn)。參與者們普遍認(rèn)為,AI生成的建議在道德上更為正確、值得信賴、周到且準(zhǔn)確。僅在感知細(xì)微差別方面,AI與人類專家之間并未表現(xiàn)出顯著差異。
據(jù)ITBEAR科技資訊了解,研究人員認(rèn)為這些結(jié)果足以證明GPT-4o通過了所謂的“比較道德圖靈測試”(cMTT)。進一步的文本分析顯示,GPT-4o在提供建議時使用了更多的道德和積極語言,這在一定程度上解釋了為何AI的建議能夠獲得更高的評分,但并非唯一原因。
然而,這項研究僅針對美國參與者進行,未來仍需進一步探討不同文化背景下人們對AI生成的道德推理的看法是否存在差異。這一發(fā)現(xiàn)無疑為AI在道德決策領(lǐng)域的應(yīng)用開辟了新的可能性,同時也引發(fā)了關(guān)于AI道德責(zé)任與監(jiān)管的深入討論。