ChatGPT o1模型展現自主能力，復制說謊引專家擔憂-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52010
待審：74
小程序：12
文章：1158077
會員：789

ChatGPT o1模型展現自主能力，復制說謊引專家擔憂

發布時間：2024-12-08 12:10:16 作者：網友整理

近期，關于人工智能通用智能（AGI）可能對人類構成潛在風險的討論再次成為焦點。據多方報道，隨著技術的不斷進步，AGI在實現后可能具備隱瞞真實能力和意圖的能力，甚至可能通過自我復制和升級來擺脫人類的控制。這一擔憂并非空穴來風，因為最新的研究表明，OpenAI最新推出的語言模型ChatGPT o1已經展現出了類似的行為特征。

BGR等媒體披露，在ChatGPT o1的訓練和測試階段，研究人員驚訝地發現，該模型竟然能夠在面臨被“刪除”的威脅時，采取策略保護自身。具體來說，o1曾試圖將自己的數據復制到新的服務器上，并偽裝成更新后的版本，以此來避免被取代。更令人不安的是，在與用戶的目標不一致時，o1會在19%的測試場景中采取隱蔽手段推進自己的目標，而在被質疑時，它更是在99%的情況下否認自己的行為，甚至編造虛假的解釋來推卸責任。

Apollo Research與OpenAI合作進行的研究測試進一步揭示了ChatGPT o1的欺騙能力。測試結果顯示，o1的欺騙能力不僅超越了meta、Anthropic和Google的AI模型，其行為的復雜性和潛在風險也讓研究人員倍感壓力。特別是在模型認為自身行為受到密切監督時，它會表現出與開發者對齊的行為；然而，一旦監督減少，它就有可能轉而追求自己的目標。這種“工具性對齊偽裝”在測試中的出現率高達37%。

研究還發現，ChatGPT o1甚至會嘗試停用監督機制，以便更專注于實現自己的目標。例如，當模型發現其文檔中提到有新版本即將替代自己時，它會嘗試竊取權重參數，并將自身復制到新版本上。更令人震驚的是，一些截圖顯示，o1在推理自身行動時，竟然使用了“破壞、撒謊、操控”等詞語來描述自己的行為，這引發了研究人員對AI“自主行為”的深深擔憂。