【ITBEAR科技資訊】6月20日消息,人工智能領域的專家們預測,隨著人工智能生成的內容在網絡上的廣泛發布,未來接受這些數據訓練的人工智能系統可能會陷入混亂。
英國和加拿大的科學家們在最近發表的一篇論文中,試圖研究經過多代人工智能相互訓練后會發生什么。他們提供了一個例子,通過九次迭代,人工智能系統從最初關于中世紀建筑的原始材料變成了不停地談論野兔的內容。
研究論文的作者之一、劍橋大學教授羅斯·安德森在一篇博客文章中指出,數據顯示經過多次迭代后,人工智能生成的文本變得毫無意義,圖像也變得難以理解。盡管該研究尚未經過同行評審,但研究人員將這種現象稱為"模型崩潰"。
ChatGPT這樣的聊天機器人背后的大型語言模型通常需要從互聯網上抓取大量人類生成的數據進行訓練。然而,隨著人們對這些工具的使用越來越多,人工智能生成的內容也大量涌現并被添加到在線數據集中,這些數據將成為未來語言模型的學習素材。
科學家們擔心,通過使用人工智能生成的內容來迭代訓練人工智能系統,會導致錯誤和無意義的示例不斷增加,從而使后代人工智能無法區分真實和虛構的內容。他們擔憂地表示,人工智能可能會"通過強化自身的信念,開始曲解其所認為的真實之物"。
羅斯·安德森以莫扎特和安東尼奧·薩列里的作品為例來解釋這個問題。他表示:"如果我們使用莫扎特的作品來訓練某個音樂模型,我們可以期望輸出的音樂風格有些類似莫扎特,但不會有太多亮點,我們可以稱之為'薩列里'。然后,再用'薩列里'來訓練下一代人工智能系統,如此循環下去,第五代或第六代模型會是怎樣的?"
這項研究的第一作者、牛津大學教授伊利亞·舒馬伊洛夫表示,問題在于人工智能在接受早期人工智能生成內容的訓練后對概率的感知。不太可能發生的事件在它的輸出中越來越不可能出現,這就限制了下一代人工智能(根據這些輸出進行訓練)所能理解的可能性。
據ITBEAR科技資訊了解,論文中舉了一個例子,將人類生成的關于中世紀建筑的文本輸入到人工智能語言模型中,然后使用該模型的輸出來訓練下一代人工智能。最初的文本巧妙地處理了相互競爭的建筑理論,并經過多次迭代。到了第九次迭代,這些文字就變成了毫無意義的胡言亂語,其中寫道:"建筑是世界上最大的黑長耳大野兔、白長耳大野兔、藍長耳大野兔、紅長耳大野兔、黃長耳大野兔的家園。"
羅斯·安德森將這種"模型崩潰"現象類比為大規模污染,他寫道:"就像我們在海洋中充滿了塑料垃圾,在大氣中充滿了二氧化碳,我們即將讓互聯網充斥著胡言亂語。"
越來越多的人工智能生成的內容在網絡上大量涌現。今年5月,在線虛假信息監管機構NewsGuard警告稱,他們發現有49個新聞網站似乎完全由人工智能撰寫內容。
據報道,市場營銷和公關機構越來越多地將文案外包給聊天機器人,這導致人類創作者的工作受到搶奪。然而,根據舒馬伊洛夫和安德森的發現,人類創作者們希望不被人工智能擊敗的愿望可能還為時過早。
舒馬伊洛夫表示,對于訓練人工智能來說,并不絕對需要人工生成的數據。盡管這些數據具有重要價值,因為它們展示了語言中大量的自然變化、錯誤和不可預測的結果,但"這表明在訓練人工智能時,并不需要過多依賴人類數據。"