聲明:本文來自微信公眾號“三易生活”(ID:IT-3eLife),作者:三易菌,,授權轉載發布。
自去年年末ChatGPT用近乎于人類的對話能力,迅速使得大語言模型成為了資本市場的寵兒,也被外界認為AI這次可能真的要改變世界了。雖然會有一批人因為它而失業,但也可能會有一大批職業在AI的加持下贏得效率革命。
當然,從現階段來說,大模型依然還處于叫好不叫座的狀態,日常用它來輔助工作、學習、生活的朋友其實并不多,但如今借助AI的力量來搞邪門歪道,卻似乎要遠比想象中多。
更準確的說,AI已經在改變了黑、灰產的玩法。日前,海外新聞網站評級工具NewsGuard發布的相關報告中顯示,他們自今年年初開始追蹤使用AI生成內容的網站,而這類網站主要的運行模式,就是使用爬蟲抓取網絡上的任意內容,并用AI重新生成。比如其中一個名為“TNN”的網站,每天會產出的1200篇文章,并完全是由爬蟲以及 “轉換語法后重寫一遍”的AI制造。
NewsGuard將這類網站稱為“Unreliable Artificial Intelligence-Generated News(UAIN,不可靠的人工智能生成的新聞信息和新聞網站)”。根據他們統計,今年4月監測到的UAIN數量為49個,可到了6月就已經增長至217個。
其實如果僅僅只是生成垃圾內容來“污染”互聯網,為如今已極為嘈雜的網絡再增加一點噪音也就罷了,但在NewsGuard統計的其中55個網站上,居然有著接近400個廣告投放。
一個純粹生成垃圾內容的網站也能獲得廣告投放?甚至這并非胡謅,而是鐵一般的事實。那么為什么內容質量如此低劣的網站也能獲得廣告主的青睞,后者難道不知道這樣的網站不光壓根就沒有多少流量,也不可能讓受眾在網頁上駐留、更遑論看廣告了。其實這個問題的答案,是廣告主真的不知道他們的廣告會出現在這樣的網站上。
據了解,絕大多數被投放到這類由AI負責輸出內容的網站廣告,都是出自谷歌旗下的在線廣告拍賣平臺Ad Manager。至于說為什么將廣告分發給低質量網站的是谷歌,這就要從由網景、雅虎建立的互聯網上通行的數字廣告體系說起了。如今在數字廣告這一生態中,存在著用戶、信息發布平臺、廣告主,以及廣告平臺這四個角色。
沒錯,在互聯網里不止有谷歌、Meta、騰訊、百度這樣的巨頭,還有無數的中小網站/APP,后者顯然缺乏尋找廣告資源的能力,因此坐擁寶山卻沒法變現就是后者的真實寫照。與此同時,廣告主也需要在知名網站、大型APP和搜索引擎之外,找到更經濟的投放渠道。
在這個時候,與網站打交道最多的搜索引擎就發現了商機,谷歌就扮演了中介的角色,并將中小網站/APP的廣告位介紹給廣告主,也就是所謂的“廣告聯盟”。
此時,谷歌作為廣告平臺會進行大量的計算、分析、優化和預測,并撮合廣告主和網站將廣告以恰當的方式和合理的價格去放到廣告位上。在這一體系中,廣告主投入資金試圖用廣告來影響用戶,并讓更多的消費者購買產品;信息發布平臺掙到了廣告費,也就有了生產優質內容吸引用戶的動力;而廣告平臺則拿到傭金,繼續研發更好的算法和技術來提高廣告的效果。
所以不難發現,由AI生成垃圾內容的網站也能從廣告聯盟拿到投放,谷歌難辭其咎。為了服務全世界的網站站長,谷歌其實打造了一套易用性極高的程序化廣告服務,站長們只需要在他們的網站頁面指定位置加入一段谷歌Adsense代碼,即可加入廣告聯盟、并填充程序化廣告。并且谷歌為了實現高度的易用性,為自己的程序化廣告還搭配了機器學習技術,可問題就出在了這里。
大模型正是機器學習技術的一部分,其所采用的多個任務一起預訓練,也是過去多年來機器學習領域最為常見的方法,只不過大模型使用的參數規模要大得多。因此這也就牽扯到了一個問題,AI眼中的世界和人類認知的世界其實是不同的。
與AI不同,人類大腦的知識表征理論中,幾乎看不到語言的痕跡。我們理解物體、理解語言時,所提取的知識是以對視覺、聽覺等信號的感知經驗,以及與對象交互的動作經驗信息編碼。
“盡管進行了大量研究,但對人類感知與機器感知能力進行比較仍然極度困難”,這是德國研究人員在相關論文中的說法。既然AI和人類的認知是有差異的,那么人類認為是好的東西、AI就不一定會持有同樣的看法了。或許就與當初網站站長用優化(SEO)試圖找到搜索引擎的“好惡”,現在大模型也找到了谷歌廣告平臺的機器學習算法的“口味”。
用AI改寫知名網站文章的做法,基本上可以被視為是“偽原創”,因此騙過谷歌的算法確實是大概率事件。可現在的問題是,要如何遏制用AI生成互聯網垃圾內容的趨勢。相比創作優質內容的網站,使用AI工具的網站在效率上顯然要更勝一籌,如果再加上谷歌廣告體系的“一視同仁”,很容易就會讓真正的創作者失望、進而流失。
那么要如何解決這個問題呢,畢竟需要為垃圾內容負更多責任的不是谷歌,而是大模型的開發者。而如此肆無忌憚地生成垃圾內容,最終的結果就是這些內容會被重新投喂給大模型“反芻”,進而導致整個模型的崩潰。至于說要怎么解決,這就是OpenAI、微軟、Meta等公司該考慮的問題了。