【ITBEAR科技資訊】7月20日消息,人工智能公司Cohere的首席執(zhí)行官Aiden Gomez近日透露,為了避免支付Reddit、Twitter等公司過高的數(shù)據(jù)采集費用,微軟、OpenAI和Cohere等多家人工智能公司開始采用合成數(shù)據(jù)來訓(xùn)練他們的AI模型。
Gomez指出,合成數(shù)據(jù)是通過計算機技術(shù)生成的數(shù)據(jù),而非真實事件產(chǎn)生的數(shù)據(jù)。這種數(shù)據(jù)具備一定的可用性,能夠在數(shù)學(xué)和統(tǒng)計學(xué)上反映原始數(shù)據(jù)的屬性,因此可以用作訓(xùn)練、測試和驗證大型模型的替代品。
據(jù)ITBEAR科技資訊了解,為了說明合成數(shù)據(jù)的應(yīng)用場景,Gomez舉了一個例子:假設(shè)某企業(yè)希望在高等數(shù)學(xué)領(lǐng)域訓(xùn)練一個模型,他們可以創(chuàng)建兩個人工智能模型,一個扮演老師的角色,另一個扮演學(xué)生的角色,然后讓它們討論三角學(xué)等主題。人工智能主要負責(zé)觀察,如果發(fā)現(xiàn)錯誤,可以進行糾正。
目前,合成數(shù)據(jù)在訓(xùn)練AI模型方面尚未全面推廣,但Gomez表示,合成數(shù)據(jù)具有廣泛的適用性,可以應(yīng)用于許多訓(xùn)練場景。雖然采用合成數(shù)據(jù)訓(xùn)練模型可能存在一些限制,但它為AI公司提供了一種解決數(shù)據(jù)獲取困難的替代方案。
隨著人工智能的發(fā)展,數(shù)據(jù)采集和數(shù)據(jù)隱私等問題日益凸顯。采用合成數(shù)據(jù)來訓(xùn)練AI模型可能成為解決數(shù)據(jù)獲取難題的一種創(chuàng)新方法。盡管合成數(shù)據(jù)在某些情況下可能無法完全代替真實數(shù)據(jù),但它提供了一種可行的選擇,幫助AI公司降低數(shù)據(jù)采集成本并推動模型的發(fā)展與優(yōu)化。
值得注意的是,合成數(shù)據(jù)的生成需要充分考慮數(shù)據(jù)的質(zhì)量、多樣性和真實性,以確保合成數(shù)據(jù)能夠準(zhǔn)確地反映現(xiàn)實世界的情況。此外,合成數(shù)據(jù)的使用還需要遵守相關(guān)的法律法規(guī)和道德規(guī)范,以保障數(shù)據(jù)隱私和信息安全。
總而言之,人工智能公司Cohere和其他一些公司開始探索使用合成數(shù)據(jù)來訓(xùn)練AI模型,以應(yīng)對高昂的數(shù)據(jù)采集費用。雖然合成數(shù)據(jù)在當(dāng)前階段尚未全面推廣,但它提供了一種創(chuàng)新的解決方案,有助于克服數(shù)據(jù)獲取的困難,并推動AI模型的發(fā)展與優(yōu)化。隨著技術(shù)的進步和實踐的積累,合成數(shù)據(jù)的應(yīng)用前景將會更加廣闊。