国产秘精品入口免费,看大胸美女一级毛片,日本欧美大码一区二区三区

劃重點:
1. 高質量數據對AI至關重要:強大、準確和高質量的AI算法需要大量高質量的數據來進行訓練。
2. AI數據可能告急:研究人員預測，如果當前的AI訓練趨勢繼續下去，高質量文本數據可能在2026年之前告急，而低質量的語言數據和圖像數據也將在未來告急。
3. 解決數據短缺問題的方法:為了解決數據短缺問題，AI開發人員可以改進算法，更有效地利用已有數據。此外，他們可以使用AI生成合成數據來訓練系統，以適應特定的AI模型。

（ChinaZ.com）11月8日消息:隨著人工智能（AI）達到巔峰，研究人員警告稱，AI行業可能會面臨訓練數據告急的問題，這是強大AI系統的燃料。這可能會減緩AI模型的增長，特別是大型語言模型，并可能改變AI革命的軌跡。

為了訓練強大、準確和高質量的AI算法，我們需要大量數據。例如，ChatGPT是基于570千兆字節的文本數據（大約3000億字）進行訓練的。類似地，stable diffusion算法(驅動許多AI圖像生成應用，如DALL-E、Lensa和Midjourney)是基于包含58億圖像-文本對的LIAON-5B數據集進行訓練的。如果算法的訓練數據不足，將會產生不準確或低質量的輸出。因此，訓練數據的質量同樣重要。低質量數據，如社交媒體帖子或模糊照片，容易獲取，但不足以訓練高性能的AI模型。

數據中心超級計算機 (1)

圖源備注：圖片由AI生成，圖片授權服務商Midjourney

AI行業一直在不斷擴大數據集的規模，這就是為什么我們現在擁有高性能模型，如ChatGPT或DALL-E3。與此同時，研究顯示，用于訓練AI的在線數據庫增長速度遠遠慢于AI所需的數據集。在去年發表的一篇論文中，一組研究人員預測，如果當前的AI訓練趨勢繼續下去，我們將在2026年之前用盡高質量文本數據，而低質量的語言數據將在2030年至2050年之間耗盡，低質量的圖像數據將在2030年至2060年之間告急。盡管AI有望在未來幾年內更有效地利用已有數據來訓練高性能AI系統，從而降低數據需求，但數據短缺問題仍需解決。

如何解決數據短缺問題?

雖然上述問題可能讓一些AI愛好者感到擔憂，但情況可能沒有看上去那么糟糕。關于AI模型未來的發展，還有許多未知因素，但有一些方法可以解決數據短缺的風險。一種機會是讓AI開發人員改進算法，使其更有效地利用已有數據。未來幾年內，他們有望能夠使用更少的數據和可能更少的計算能力來訓練高性能AI系統，這也將有助于減少AI的碳足跡。

另一種選擇是使用AI來生成合成數據以訓練系統。換句話說，開發人員可以簡單地生成他們需要的數據，以適應其特定的AI模型。已經有幾個項目正在使用合成內容，通常是從數據生成服務中獲取的，這將在未來變得更加普遍。

開發人員還在尋找在線空間以外的內容，如大型出版商和離線存儲庫中的內容。想象一下在互聯網之前出版的數百萬篇文本，如果以數字形式提供，它們可能為AI項目提供新的數據來源。例如，新聞集團（News Corp）是全球最大的新聞內容所有者之一，最近表示正在與AI開發人員洽談內容交易。這些交易將迫使AI公司為訓練數據付費，而他們迄今大多免費從互聯網上獲取數據。內容創作者已經抗議允許未經授權使用其內容來訓練AI模型，一些公司如微軟、OpenAI和Stability AI已被起訴。獲得對其工作的報酬可能有助于恢復創意工作者和AI公司之間存在的一些權力失衡。