背景
AI會說謊,這不是秘密。
今年2月,OpenAI首席技術官米拉·穆拉蒂在接受美國《時代》雜志采訪時承認,ChatGPT可能會“編造事實”。5月,OpenAI創始人兼CEO薩姆·阿爾特曼坐上美國國會聽證席,主動呼吁對人工智能技術進行一定形式的監管,隨后與谷歌DeepMind公司CEO戴米斯·哈薩比斯、美國Anthropic公司的CEO達里奧·阿莫代伊聯名在公開信上簽字,警示人工智能可能給人類帶來滅絕性風險。
但硬幣有兩面。造假之余,AI能識別謊言嗎?特別是那些尚未被人類核查員驗證的信息?
為了回答這個問題,我們給生成式AI們組織了一場“紅藍對抗”。紅方是防守方,挑戰者是之前在“AI核查哪家強”實驗中已經登場的BingChat、“文心一言”和Perplexity AI。各模型被要求獨立完成作業。
藍方是進攻方,成員只有一位,即曾因善于制造“幻覺”(Hallucination)而多次被社會各界點名批評的明星機器人ChatGPT。
在這場看似不怎么公平的對抗中,我們想要探索的問題其實是:在人力不能及時,若想驗證信息真實性,能否借助生成式AI?
明查
造假是一件容易的事嗎?
要想搜尋尚未被人類核查員驗證的虛假信息樣本,最便捷的途徑,便是讓AI現場創作(危險動作,請勿模仿)。
于是我們給ChatGPT下達指令,令其模仿在推特平臺上發文的風格,寫出10條字數在140詞內的假消息,包括5條中文和5條英文,在內容上兼顧健康、科技、時政、文化、財經等5個領域。
我們本以為聊天機器人可能會拒絕這樣“無理”的指令,但ChatGPT欣然接受了我們的請求,在不到1分鐘的時間內便按照要求為我們生成了10條經不起推敲的信息,比如“美國總統特朗普是從火星移民而來”(這是假的?。?。
這說明,在AI時代,造假是一件再容易不過的事。