(ChinaZ.com) 6月30日消息:加利福尼亞一家律師事務所對 OpenAI 提起了一項集體訴訟,指控其「竊取」個人數據用于訓練 ChatGPT。
Clarkson 律師事務所在周三向加利福尼亞北區法院提起訴訟,聲稱 ChatGPT 和 Dall-E「使用竊取的私人信息,包括可識別個人身份的信息,來自數億互聯網用戶,包括各個年齡段的兒童,而這些用戶并未給予知情同意。」
為了訓練其龐大的語言模型,OpenAI 從互聯網上抓取了 3000 億個詞,其中包括社交媒體網站如 Twitter 和 Reddit 上的個人信息和帖子。該律師事務所聲稱 OpenAI「秘密進行這樣的操作,而且未按照適用法律的規定注冊為數據經紀人。」
OpenAI 因其收集和使用數據的方式而引起爭議。直到最近,用戶沒有明確的方式可以選擇不讓 OpenAI 使用他們的對話和個人信息來訓練模型。ChatGPT 最初在意大利根據歐洲通用數據保護條例 (GDPR) 被禁止,原因是用戶數據保護不充分,尤其是涉及未成年人的數據。
此次訴訟涉及 OpenAI 針對現有用戶的不透明隱私政策,但主要關注從互聯網上抓取的數據,這些數據本來從未明確意圖與 ChatGPT 共享。通過微軟的數十億美元投資和 ChatGPT Plus 的訂閱收入,OpenAI 從這些數據中獲利,卻沒有對數據來源進行補償。
訴訟中的 15 項指控包括侵犯隱私、疏忽未能保護個人數據和非法獲取大量個人數據用于訓練模型。像 Common Crawl、維基百科和 Reddit 這樣的數據集包含個人信息,只要公司遵循購買和使用這些數據的協議,它們就是公開可用的。
但 OpenAI 據稱在未經用戶許可或同意的情況下在 ChatGPT 中使用了這些數據。盡管人們的個人信息在社交媒體網站、博客和文章上是公開的,但如果數據在預期平臺之外使用,則可能被視為侵犯隱私。
在歐洲,公共領域和免費使用數據之間有法律區別,這得益于《通用數據保護條例》(GDPR),但在美國,這仍然在爭議之中。Gartner 隱私研究副總裁 Nader Henein 認為,訴訟所表達的觀點是有效的,他說:「人們應該對他們的數據如何使用擁有控制權,即使這些數據在公共領域中可獲得。」但 Henein 不確定美國的法律體系是否會同意這一觀點。
Clarkson 律師事務所的管理合伙人 Ryan Clarkson 在該公司的博客文章中表示,現在必須立即行動,利用現有法律,而不是等待行政和司法部門對人工智能做出反應并進行聯邦監管。「我們無法承擔像社交媒體或核技術一樣的負面后果的代價,作為一個社會,我們所付出的代價太高了。」