【ITBEAR科技資訊】4月7日消息,近日,有關AI公司在收集訓練數據方面所面臨的挑戰引發了廣泛關注。據《華爾街日報》本周早些時候的報道,AI企業正努力應對高質量訓練數據收集的難題。而今日,《紐約時報》深入探討了這些企業為解決此問題所采取的策略,其中一些做法牽涉到AI版權法的模糊地帶。
據報道,為了獲取訓練數據,領先的AI公司OpenAI開發了一種名為Whisper的音頻轉錄模型。該公司利用這一模型轉錄了超過100萬小時的YouTube視頻,以便訓練其最新的大型語言模型GPT-4。OpenAI在2021年就已經耗盡了可用的數據資源,并在探討利用YouTube視頻、播客和有聲讀物等資源的可行性后,決定采用這種方法。此外,OpenAI還整合了包括Github的計算機代碼、國際象棋走棋數據以及來自Quizlet的學習資料等多種數據源。
據ITBEAR科技資訊了解,盡管OpenAI意識到這種做法在法律上存在爭議,但他們認為這屬于合理使用范圍。《泰晤士報》披露,OpenAI的總裁Greg Brockman甚至親自參與了視頻的收集工作。OpenAI的發言人Lindsay Held向媒體表示,公司為每個模型都策劃了獨特的數據集,旨在幫助其更好地了解世界,并維持其在全球研究領域的競爭力。Held還提到,公司使用了眾多數據來源,并正在考慮生成自家的合成數據。
然而,這一做法并未得到所有相關方的認可。谷歌發言人Matt Bryant指出,他們注意到了有關OpenAI活動的報告,并重申其robots.txt文件和服務條款都明確禁止未經授權的YouTube內容抓取或下載。YouTube首席執行官Neal Mohan也在近日的采訪中表示,盡管沒有直接證據表明OpenAI使用YouTube視頻來訓練其AI模型,但此類行為確實違反了YouTube的服務條款。
同樣面臨數據可用性限制的還有meta公司。在《泰晤士報》披露的錄音中,meta的AI團隊為了追趕OpenAI,討論了未經許可使用版權作品的可能性。該團隊在考慮了互聯網上幾乎所有可用的英語書籍、散文、詩歌和新聞文章后,提出了諸如支付圖書許可費,甚至收購大型出版商等解決方案。