劃重點:
- ? OpenAI 為訓練 GPT-4模型轉錄了超過一百萬小時的 YouTube 視頻
- ? Google 和 Meta 也遇到了數據獲取限制的挑戰
- ? AI 公司面臨數據獲取困難,采取爭議性手段應對
(ChinaZ.com)4月7日 消息:AI 公司在獲取高質量訓練數據方面遇到的挑戰,OpenAI 為了訓練其最先進的大型語言模型 GPT-4,使用了超過一百萬小時的 YouTube 視頻副本。
據了解,該公司通過其 Whisper 音頻轉錄模型轉錄這些視頻,盡管這一做法在法律上具有爭議性,OpenAI 仍認為這屬于合理使用。
Google 對此表示關注,指出其條款禁止未經授權地獲取 YouTube 內容。同時,Google 和 Meta 也遇到了訓練數據獲取的限制,為了跟進 OpenAI 的步伐,這兩家公司也采取了一些爭議性的做法。
AI 領域正面臨訓練數據短缺的挑戰,而解決方案尚未明朗,公司們需要權衡利弊并尋求合理途徑應對這一問題。