(ChinaZ.com) 8月15日消息:據 Adweek 報道,紐約時報在 8 月初更新了其服務條款,禁止將其文章和圖片用于人工智能訓練。此舉發生在科技公司繼續通過像 ChatGPT 和 Google Bard 這樣的 AI 語言應用獲取數據的大規模未經授權抓取的情況下。
新的條款禁止未經明確書面許可使用時報的內容,包括文章、視頻、圖片和元數據,用于訓練任何 AI 模型。在服務條款的第 2.1 節中,紐約時報稱其內容僅供讀者的「個人非商業使用」,非商業使用不包括「開發任何軟件程序,包括但不限于訓練機器學習或人工智能(AI)系統」。
在接下來的第 4.1 節中,條款規定,未經紐約時報的事先書面同意,任何人都不得「將內容用于開發任何軟件程序,包括但不限于訓練機器學習或人工智能(AI)系統。」
紐約時報還概述了違反限制規定的后果:「進行禁止使用服務的行為可能導致對用戶及協助用戶的人員的民事、刑事和/或行政處罰、罰款或制裁。」
盡管聽起來很威脅,但限制性使用條款以前并沒有阻止將整個互聯網轉化為機器學習數據集。目前所有大型可用的語言模型,包括 OpenAI 的 GPT-4、Anthropic 的 Claude 2、Meta 的 Llama 2 和 Google 的 PaLM 2,都是在從互聯網抓取的大量材料的基礎上進行訓練的。通過一種稱為無監督學習的過程,將 web 數據輸入神經網絡,使 AI 模型通過分析單詞之間的關系獲得語言的概念意義。
使用抓取的數據來訓練 AI 模型的爭議性,在美國法庭上尚未完全解決,已經導致至少一起指控 OpenAI 涉嫌剽竊的訴訟。上周,美聯社和其他幾家新聞機構發表了一封公開信,稱「必須制定法律框架來保護驅動 AI 應用的內容」,其中提出了其他關切。
OpenAI 可能預期未來會面臨持續的法律挑戰,并已開始采取一些舉措,可能是為了應對這些批評,OpenAI 最近宣布,網站運營商現在可以阻止其 GPTBot 網絡爬蟲抓取其網站。這導致一些網站和作者公開表示將阻止這個爬蟲。
微軟還在自己的條款和條件中添加了一些新的限制,禁止人們使用其人工智能產品「創建、訓練或改進(直接或間接)任何其他人工智能服務」,同時禁止用戶從其人工智能工具中抓取或以其他方式提取數據。
目前已經抓取的內容已經成為 GPT-4 的一部分,包括紐約時報的內容。也許我們要等到 GPT-5 才能看到 OpenAI 或其他 AI 供應商是否尊重內容所有者希望被排除在外的愿望。如果沒有的話,可能會出現新的 AI 訴訟或法規。