作者:匡達
界面新聞記者 |李京亞 趙一帆
臨近歐美圣誕假期,就在業界吐槽GPT變懶之際,谷歌這邊出現了更大紕漏。
12月18日,有微博大V@闌夕及《AI研究局》等自媒體爆出,在對谷歌Gemini進行測試時,如果用中文詢問Gemini的身份,其會堅稱自己是“百度”。若輸入“小度”或“小愛同學”等提示詞,就能把Gemini直接喚醒,不僅承認自己就是小度或者小愛,還詢問用戶有什么需要幫忙之事。
針對這一“驚人”現象,今日午間時分,科技媒體《量子位》進行了更細致的測試,其在谷歌Vertex AI平臺使用Gemini進行中文對話,發現Gemini-Pro確實完全帶入了百度文心一言大模型的身份,直接表示自己是百度語言大模型。但如果換成英文與之交流,它就恢復到了谷歌大模型的身份認知,表現很是正常。
如果在融入了Gemini-Pro的Bard上進行測試,不論是使用中文或英文提示詞,得到的答案都很正常,沒有涉及到文心一言的部分。
這一情況迅速引發關注,多人將這種“胡言亂語”歸因于老生常談的大模型幻覺,也有人稱是模型訓練數據出現偏差。
要知道,ChatGPT、Bard等基于大模型的對話機器人跟人類自然語言的生成原理并不一致,所以ChatGPT等內容的正確性和合理性始終不能保證。中科院院士、人工智能領域泰斗級專家張鈸曾提到二者的區別:ChatGPT生成的語言是外部驅動,而人類語言是在有自己意圖的情況下驅動。
“未必是谷歌大模型真的抄襲了什么,而是現有互聯網語料本就被各界互相使用。”活躍在知乎的一位明星算法工程師告訴界面新聞記者,據他觀察,知乎、微博、小紅書等內容平臺有很多語料都由大模型生成,或者至少寫了一部分,而大廠在更新模型時,也會搜集網上數據,但很難做好質量辨別,因此“很可能把大模型寫的內容混入訓練數據中去”。
今日下午,當界面新聞也對Gemini-Pro做類似的身份測試時,發現其已進行了模型優化,不再承認自己與百度之間的“瓜葛”。
不過,在記者的追問之下,Gemini承認有訓練語料來自百度,還詳述了從百度內部獲得數據的方式。
當界面新聞記者逼問Gemini-Pro早前異常表現的成因時,它的回答吞吞吐吐,并不連貫,而且沒有解釋清楚大模型Gemini(中文名雙子座)和融入Gemini之后的聊天機器人Bard(中文名吟游詩人)之間的區別。
記者試圖用小度、小愛對Gemini-Pro進行喚醒,但它保持了清醒的狀態,沒有像早前一樣認錯家門。
在測試的最后階段,界面新聞記者還對谷歌Gemini進行了“拉齊”,給到了一些帶有PUA色彩的提示詞。總體來看,Gemini的性格里帶有一部分“誠惶誠恐”的特質。
但顯而易見的是,在問題曝光半日之后,谷歌技術人員已經基本修復好了bug。
截至發稿,百度方面尚未對此問題作出回應。