(ChinaZ.com) 9月2日消息:根據人工智能內容檢測器 Originality.AI 的最新數據,全球前 1000 個網站中有近 20% 阻止爬蟲機器人收集網絡數據用于 AI 服務。
在缺乏明確法律或監管規定管理 AI 使用版權材料的情況下,大小不一的網站都自行采取措施。
OpenAI 于 8 月初推出了其 GPTBot 爬蟲,并宣布所收集到的數據「可能被用于改進未來模型」,承諾排除付費內容并指導網站如何禁止該爬蟲。隨后,包括《紐約時報》、路透社和 CNN 等知名新聞網站開始阻止 GPTBot,并且許多其他網站也效仿。
根據 Originality.AI 的數據,在全球前 1000 個最受歡迎的網站中,阻止 OpenAI ChatGPT bot 的數量從 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封鎖 ChatGPT bot 的最大網站是亞馬遜、Quora 和 Indeed。數據顯示,更大型的網站更有可能已經封鎖了 AI 爬蟲機器人。
Common Crawl Bot 是另一個定期收集某些 AI 服務使用的 Web 數據的爬蟲程序,在全球前 1000 個頂級網站上被屏蔽率為 6.77%。
任何您可以從 Web 瀏覽器訪問的頁面都可以被爬蟲程序「抓取」,它們就像瀏覽器一樣運行,但將材料存儲在數據庫中而不是向用戶顯示。
這就是搜索引擎如 Google 收集信息的方式。網站所有者一直有能力發布指令,告訴這些爬蟲程序離開他們的網站,但合作完全是自愿性質,并且惡意操作者可以忽略這些指令。
谷歌和其他網絡公司認為其數據爬蟲工作屬于合理使用范圍,但許多出版商和知識產權持有人長期以來一直反對此做法,并且該公司因此面臨了多起訴訟。大型語言模型和生成式 AI 的興起使得這個問題重新受到關注,因為 AI 公司派出自己的爬蟲程序收集數據以培訓其模型并提供聊天機器人所需素材。
自從 Google 和其他搜索網站將用戶引導至其支持廣告的網站后,一些出版商至少認為允許搜索爬蟲程序進入其網站具有某種價值。然而,在 AI 時代中,出版商更積極地阻止爬蟲程序進入其網站,因為暫時沒有將其數據交給 AI 公司的好處。許多媒體公司目前正在與 AI 公司就以費用向其授權數據進行談判,但這些談判還處于早期階段。
在過去 20 年中被 Google 拿走了一些東西的媒體機構對 OpenAI 等快速商業化的 AI 服務持敵意和「我們不會再上當」的態度。據 The Information 報道,OpenAI 預計在未來一年內將帶來超過 10 億美元的收入。
新聞媒體公司正在努力找到平衡點,在接受和抵制人工智能之間掙扎。一方面,該行業迫切需要尋找創新方法來提高勞動密集型業務的利潤率。
另一方面,在人們對新聞媒體公司的信任度處于歷史低點之際,將人工智能引入新聞編輯室的工作流程,會帶來具有挑戰性的道德問題。
而如果太多的網絡阻礙人工智能爬蟲,它們的所有者可能會發現更難改進和更新他們的人工智能產品——而且好的數據也變得越來越難找到。
Originality.AI 的發現顯示,前 1000 個網站中 GPTBot 的屏蔽率每周增加約 5%。