【ITBEAR科技資訊】7月20日消息,人工智能公司Cohere的首席執行官Aiden Gomez近日透露,AI公司在面對Reddit、Twitter等公司提出的高昂數據采集要價時,已經開始采用合成數據來訓練AI模型。微軟、OpenAI和Cohere等公司都在利用這一方法,以降低數據采集的成本。
據Gomez表示,合成數據具有廣泛適用性,可以用于多種訓練場景,只是目前還未被全面推廣。他舉了一個例子來說明合成數據的應用:假設一家企業想要在高等數學領域訓練一個模型,他們可以創建兩個人工智能模型,一個扮演老師的角色,另一個扮演學生的角色,并讓它們進行關于三角學等主題的討論。AI模型主要負責觀察,如果發現任何錯誤,可以進行糾正。
合成數據是通過計算機技術人工生成的數據,而非來自真實事件。盡管如此,合成數據仍然具備可用性,可以在數學和統計上反映原始數據的特征,因此可以作為原始數據的替代品來訓練、測試和驗證大型AI模型。
據ITBEAR科技資訊了解,使用合成數據進行訓練可以帶來許多優勢。首先,合成數據可以根據需要生成,因此可以輕松獲得大量的標注數據,以提高模型的準確性。其次,合成數據可以模擬各種場景和情況,包括那些在真實世界中難以獲取的數據,從而提高模型的泛化能力。此外,合成數據還可以創建多樣化的數據集,以更全面地訓練和測試模型。
然而,雖然合成數據在AI模型訓練方面有潛力,但仍存在一些限制。合成數據的質量和真實性是重要問題,需要確保生成的數據與真實數據保持一致和可靠,以確保訓練出的模型在真實世界中表現良好。此外,合成數據的廣泛應用還需要進一步的研究和驗證,以確保在不同領域和任務中的有效性。