【ITBEAR】近日,兩家知名媒體《紐約時報》與《每日新聞》聯合對人工智能技術巨頭OpenAI提起訴訟,指控其未經授權使用了它們的作品來訓練AI模型。這一消息引發了廣泛關注。
事情的起因要追溯到今年秋季,當時OpenAI同意向兩家媒體提供兩臺虛擬機,以便它們的律師可以在AI訓練集中查找受版權保護的內容。虛擬機,作為一種基于軟件的計算機,通常用于測試、數據備份和應用程序運行,這次被賦予了新的使命。
然而,在雙方合作的過程中,卻出現了一次意外的波折。據《紐約時報》與《每日新聞》的律師透露,自11月1日起,他們及其聘請的專家已經花費了超過150個小時的時間,在OpenAI的訓練數據中搜尋證據。然而,就在11月14日,OpenAI的工程師卻意外刪除了其中一臺虛擬機上存儲的所有搜索數據。
盡管OpenAI隨后嘗試恢復數據,并且取得了一定的成功,但由于文件夾結構和文件名的丟失,這些恢復的數據已經無法用于確定哪些文章被用于構建OpenAI的模型。這意味著,《紐約時報》與《每日新聞》的律師和專家不得不從頭開始,重新進行他們的工作。
“我們被迫投入了大量的人力和計算機處理時間,重新制作我們的工作。”兩家媒體的律師在提交給紐約南區美國地方法院的信件中寫道,“我們昨天才得知恢復的數據無法使用,專家和律師整整一周的工作必須重新完成。”
盡管原告律師明確表示,他們沒有理由相信這次刪除是故意的,但他們認為,這一事件凸顯了OpenAI在自身數據集中搜索潛在侵權內容方面的強大能力。這也讓人們對OpenAI的數據管理和合規性產生了質疑。
對于此次訴訟,OpenAI方面則堅稱,使用公開數據(包括《紐約時報》和《每日新聞》的文章)來訓練模型是合理使用。他們表示,在創建如GPT-4o這樣的模型時,無需獲得許可或以其他方式為這些示例付費,即使他們從這些模型中獲得了收益。然而,這一觀點并未得到兩家媒體的認同。
值得注意的是,盡管面臨訴訟,OpenAI已經與越來越多的新出版商簽署了許可協議。其中包括美聯社、Axel Springer(Business Insider的所有者)、金融時報、Dotdash Meredith(People的母公司)和新聞集團等。盡管OpenAI拒絕公開這些交易的條款,但有報道稱,其中一個內容合作伙伴每年至少獲得1600萬美元的報酬。這也顯示了OpenAI在內容版權方面的積極態度和策略。
截至目前,OpenAI既沒有確認也沒有否認其在未經許可的情況下將其AI系統訓練在任何特定的受版權保護的作品上。這場訴訟的結果如何,還有待進一步觀察。