日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52003
  • 待審:43
  • 小程序:12
  • 文章:1047590
  • 會員:762

【ITBEAR科技資訊】4月7日消息,近日,有關AI公司在收集訓練數據方面所面臨的挑戰引發了廣泛關注。據《華爾街日報》本周早些時候的報道,AI企業正努力應對高質量訓練數據收集的難題。而今日,《紐約時報》深入探討了這些企業為解決此問題所采取的策略,其中一些做法牽涉到AI版權法的模糊地帶。

據報道,為了獲取訓練數據,領先的AI公司OpenAI開發了一種名為Whisper的音頻轉錄模型。該公司利用這一模型轉錄了超過100萬小時的YouTube視頻,以便訓練其最新的大型語言模型GPT-4。OpenAI在2021年就已經耗盡了可用的數據資源,并在探討利用YouTube視頻、播客和有聲讀物等資源的可行性后,決定采用這種方法。此外,OpenAI還整合了包括Github的計算機代碼、國際象棋走棋數據以及來自Quizlet的學習資料等多種數據源。

據ITBEAR科技資訊了解,盡管OpenAI意識到這種做法在法律上存在爭議,但他們認為這屬于合理使用范圍。《泰晤士報》披露,OpenAI的總裁Greg Brockman甚至親自參與了視頻的收集工作。OpenAI的發言人Lindsay Held向媒體表示,公司為每個模型都策劃了獨特的數據集,旨在幫助其更好地了解世界,并維持其在全球研究領域的競爭力。Held還提到,公司使用了眾多數據來源,并正在考慮生成自家的合成數據。

然而,這一做法并未得到所有相關方的認可。谷歌發言人Matt Bryant指出,他們注意到了有關OpenAI活動的報告,并重申其robots.txt文件和服務條款都明確禁止未經授權的YouTube內容抓取或下載。YouTube首席執行官Neal Mohan也在近日的采訪中表示,盡管沒有直接證據表明OpenAI使用YouTube視頻來訓練其AI模型,但此類行為確實違反了YouTube的服務條款。

同樣面臨數據可用性限制的還有meta公司。在《泰晤士報》披露的錄音中,meta的AI團隊為了追趕OpenAI,討論了未經許可使用版權作品的可能性。該團隊在考慮了互聯網上幾乎所有可用的英語書籍、散文、詩歌和新聞文章后,提出了諸如支付圖書許可費,甚至收購大型出版商等解決方案。

分享到:
標簽:數據源 面臨 訓練 挑戰 法律
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52003

    網站

  • 12

    小程序

  • 1047590

    文章

  • 762

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定