日前,紐約時報的一篇報道稱,人工智能公司 AI target=_blank class=infotextkey>OpenAI為收集高質量訓練數據而開發了一個語音轉錄模型Whisper。該模型主要用于轉錄 OpenAI 獲取的超過 100 萬小時的 YouTube 視頻,也就是將 YouTube 視頻中的音頻內容轉錄文字,然后再拿去訓練 GPT-4。這個項目得到OpenAI 總裁 Greg Brockman的支持,甚至于Greg Brockman還親自參與了視頻的收集工作。
雖然OpenAI 認為這是對數據的合理利用,但谷歌顯然并不這么認為,并公開稱:谷歌會采取技術和法律措施來防止此類未經授權的使用。
在人工智能領域,數據是構建智能模型的基石。沒有高質量的數據,AI的發展就會受到嚴重限制。怎么合法獲取高質量數據?可能有望在OpenAI和谷歌的紛爭中給業界指明一條更為明確的道路。
AI公司為了提升模型的性能,往往需要大量的數據作為訓練材料。然而,這些數據往往受到版權法的保護,未經授權的使用可能會觸犯法律。這不僅對AI公司構成挑戰,也對內容創作者的權利保護提出了問題。
目前OpenAI的訓練數據獲取大多是來自以下幾方面:
一是互聯網內容。OpenAI從互聯網上抓取大量的網頁內容,包括文本、圖片、視頻等多種形式的數據。這些數據不僅用于訓練自然語言處理模型,如GPT系列,還可能用于圖像識別、多模態模型等其他類型的AI模型。
二是圖書資料。OpenAI還利用大量的圖書資料作為訓練數據。這些書籍內容涵蓋了各種領域和主題,有助于模型更好地理解長篇、結構化和正式英語。
三是學術論文。為了提升模型在科學和技術領域的理解能力,OpenAI還收集了大量的學術論文作為訓練數據。
四是社交媒體數據。隨著社交媒體的發展,OpenAI也開始與各大社交媒體合作,探索利用社交媒體上的公共信息來訓練模型。這些數據包括用戶發布的文本、圖片、視頻等,有助于模型更好地理解人類的語言和行為。
五是特定領域數據。針對特定任務或領域,OpenAI還可能收集特定領域的數據進行訓練。例如,對于醫療領域的模型,可能需要收集醫學文獻、病例報告等數據;對于金融領域的模型,可能需要收集市場數據、財務報告等。
這些內容不僅OpenAI在用,其他無數AI公司也在用這些內容進行人工智能的訓練,要保證OpenAI的領先性,就必須為其AI模型加入更加豐富的高質量訓練數據。這是OpenAI轉錄YouTube視頻進行訓練的關鍵所在。
2020年初,約翰霍普金斯大學的理論物理學家(現Anthropic首席科學官)Jared Kaplan發布了一篇論文,明確表示訓練大語言模型用的數據越多,表現就會越好。自那以后,“規模就是一切”成為了人工智能行業的信條。
研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快會在2026年就耗盡互聯網上的高質量數據。
高質量數據已經成為AI公司發展壯大的“石油”,在競爭的壓力下,讓它們對石油的獲取變得更為無所顧忌。對YouTube視頻的轉錄存在法律爭議,OpenAI是知道的,但對數據的貪婪還是讓他們義無反顧的堅信這是對數據的合理使用。
AI公司要發展,獲取訓練數據要合法合規。 一方面,可以通過與內容提供商建立合作關系,獲取合法授權的數據。另一方面,AI公司也可以考慮自行生成合成數據,以滿足訓練需求。這不僅能夠避免法律風險,還能夠確保數據的多樣性和質量。
AI的發展不僅僅是技術問題,更是社會問題。AI技術的應用需要在尊重版權、保護隱私的前提下進行。只有這樣,AI技術才能夠得到健康、可持續的發展。
AI的盡頭是內容,但內容的獲取必須建立在合法合規的基礎之上。AI公司、內容創作者、法律機構等各方需要共同努力,找到平衡技術發展與法律倫理的解決方案,以確保AI技術能夠造福人類社會,而不是成為爭議的焦點。