劃重點:
1. 高質量數據對AI至關重要:強大、準確和高質量的AI算法需要大量高質量的數據來進行訓練。
2. AI數據可能告急:研究人員預測,如果當前的AI訓練趨勢繼續下去,高質量文本數據可能在2026年之前告急,而低質量的語言數據和圖像數據也將在未來告急。
3. 解決數據短缺問題的方法:為了解決數據短缺問題,AI開發人員可以改進算法,更有效地利用已有數據。此外,他們可以使用AI生成合成數據來訓練系統,以適應特定的AI模型。
(ChinaZ.com)11月8日 消息:隨著人工智能(AI)達到巔峰,研究人員警告稱,AI行業可能會面臨訓練數據告急的問題,這是強大AI系統的燃料。這可能會減緩AI模型的增長,特別是大型語言模型,并可能改變AI革命的軌跡。
為了訓練強大、準確和高質量的AI算法,我們需要大量數據。例如,ChatGPT是基于570千兆字節的文本數據(大約3000億字)進行訓練的。類似地,stable diffusion算法(驅動許多AI圖像生成應用,如DALL-E、Lensa和Midjourney)是基于包含58億圖像-文本對的LIAON-5B數據集進行訓練的。如果算法的訓練數據不足,將會產生不準確或低質量的輸出。因此,訓練數據的質量同樣重要。低質量數據,如社交媒體帖子或模糊照片,容易獲取,但不足以訓練高性能的AI模型。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
AI行業一直在不斷擴大數據集的規模,這就是為什么我們現在擁有高性能模型,如ChatGPT或DALL-E3。與此同時,研究顯示,用于訓練AI的在線數據庫增長速度遠遠慢于AI所需的數據集。在去年發表的一篇論文中,一組研究人員預測,如果當前的AI訓練趨勢繼續下去,我們將在2026年之前用盡高質量文本數據,而低質量的語言數據將在2030年至2050年之間耗盡,低質量的圖像數據將在2030年至2060年之間告急。盡管AI有望在未來幾年內更有效地利用已有數據來訓練高性能AI系統,從而降低數據需求,但數據短缺問題仍需解決。
如何解決數據短缺問題?
雖然上述問題可能讓一些AI愛好者感到擔憂,但情況可能沒有看上去那么糟糕。關于AI模型未來的發展,還有許多未知因素,但有一些方法可以解決數據短缺的風險。一種機會是讓AI開發人員改進算法,使其更有效地利用已有數據。未來幾年內,他們有望能夠使用更少的數據和可能更少的計算能力來訓練高性能AI系統,這也將有助于減少AI的碳足跡。
另一種選擇是使用AI來生成合成數據以訓練系統。換句話說,開發人員可以簡單地生成他們需要的數據,以適應其特定的AI模型。已經有幾個項目正在使用合成內容,通常是從數據生成服務中獲取的,這將在未來變得更加普遍。
開發人員還在尋找在線空間以外的內容,如大型出版商和離線存儲庫中的內容。想象一下在互聯網之前出版的數百萬篇文本,如果以數字形式提供,它們可能為AI項目提供新的數據來源。例如,新聞集團(News Corp)是全球最大的新聞內容所有者之一,最近表示正在與AI開發人員洽談內容交易。這些交易將迫使AI公司為訓練數據付費,而他們迄今大多免費從互聯網上獲取數據。內容創作者已經抗議允許未經授權使用其內容來訓練AI模型,一些公司如微軟、OpenAI和Stability AI已被起訴。獲得對其工作的報酬可能有助于恢復創意工作者和AI公司之間存在的一些權力失衡。