日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52003
  • 待審:43
  • 小程序:12
  • 文章:1047590
  • 會員:762

OpenAI陷入圖書版權糾紛

OpenAI陷入圖書版權糾紛

北京時間5月8日,最新解封的法庭文件顯示,OpenAI刪除了兩個名為“圖書1”(books1)和“圖書2”(books2)的龐大數據集,這些數據集曾用于訓練其GPT-3人工智能(AI)模型。

這些文件來自美國作家協會對OpenAI提起的集體訴訟。美國作家協會的律師在法庭文件中表示,這些數據集很可能包含“10萬多本已出版書籍”,是該協會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。

幾個月來,美國作家協會一直尋求從OpenAI獲得有關這些數據集的信息。法律文件顯示,OpenAI最初以保密為由拒絕提供這些數據集的下落,但最終披露已刪除所有數據副本。

高質量的訓練數據是強大AI模型的重要組成部分。目前,這些AI模型正在席卷科技界。OpenAI和其他公司使用互聯網數據來建立這些模型,其中包括許多書籍。許多創造這些數據的公司認為,他們為新的AI產品提供了訓練數據,需要獲得報酬。但是,科技公司不想被迫付費。這一爭執已經引發了多起官司。

500億個單詞

OpenAI曾在2020年發布過一份白皮書,將圖書1和圖書2數據集描述為“基于互聯網的圖書語料庫”,并表示它們占據創建GPT-3訓練數據的16%。白皮書還表示,圖書1和圖書2總共包含670億個數據詞元(token),大致相當于500億個單詞。作為比較,《欽定圣經》有783,137個單詞。

最新解封的法庭文件是OpenAI律師的信函,它被標記為“高度機密-僅限律師查看”。信中說,OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由于這些數據集不再使用,它們在2022年年中被刪除。信中還說,用于訓練GPT-3的其他數據都沒有被刪除,并允許美國作家協會的律師訪問其他數據集。

該文件還顯示,創建圖書1和圖書2的兩名研究人員已不再受雇于OpenAI。OpenAI最初拒絕透露這兩名員工的身份,隨后向美國作家協會的律師確認了這些員工的身份,但沒有公開披露他們的姓名。OpenAI已經請求法院對這兩名員工的姓名以及有關數據集的信息保密。美國作家協會對此表示反對,認為公眾有知情權。目前,爭議仍在繼續。

OpenAI周二在一份聲明中表示:“驅動當前ChatGPT和應用程序接口的模型不是使用這些數據集開發的。這些數據集是由OpenAI前員工創建的,最后一次使用是在2021年,并在2022年因未使用而被刪除。”

【來源:鳳凰網科技

分享到:
標簽:數據 圖書 模型 美國 訓練
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52003

    網站

  • 12

    小程序

  • 1047590

    文章

  • 762

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定