7 月 20 日消息,人工智能公司 Cohere 首席執行官 Aiden Gomez 近日透露,由于 Reddit、Twitter 等公司的數據采集要價太高,包括微軟、OpenAI 和 Cohere 在內的 AI 公司,已使用合成數據來訓練 AI 模型。
Gomez 表示合成數據可以適用于很多訓練場景,只是目前尚未全面推廣。
IT之家在此附上 Gomez 舉的一個例子:如果某個企業想在高等數學中訓練一個模型,可以創建兩個人工智能模型,分別扮演老師和學生的角色,并讓它們討論三角學之類的話題。人工主要負責觀察,如果看到有什么錯誤,可以進行糾正。
IT之家注:
合成數據(synthetic data)是通過計算機技術人工生成的數據,而不是由真實事件產生的數據。
但合成數據具備“可用性”,能夠在數學上或統計學上反映原始數據的屬性,因此可以作為原始數據的替代品來訓練、測試并驗證大模型。
【來源:IT之家】