【ITBEAR科技資訊】11月10日消息,OpenAI今日發布聲明,宣布與多個組織達成合作協議,共同構建用于AI模型訓練的公共和私有數據集。此次數據合作旨在推動AI技術未來的發展,使更多組織能夠從更為實用的模型中獲益。
據悉,OpenAI表示:“為了確保AI的安全性,并使其更好地造福全人類,我們希望AI模型能夠對各種主題、行業、文化和語言進行深入理解,這就需要具備盡可能廣泛的訓練數據?!?/p>
作為數據合作伙伴計劃的一部分,OpenAI計劃收集涵蓋“反映人類社會”的大規模數據集,這些數據通常在線上難以獲取。盡管OpenAI的工作涉及多種模式,包括圖像、音頻和視頻,但公司特別強調尋求多語言、多主題、多格式的數據,以更好地“表達人類的意圖”,例如長篇寫作或對話。
據ITBEAR科技資訊了解,OpenAI計劃通過光學字符識別和自動語音識別等工具對數據進行數字化。同時,為了保護隱私,OpenAI將在必要時刪除敏感或個人信息,并與合作組織共同努力。
OpenAI的目標是創建兩類數據集:一種是公開的、開源的,可供任何人在AI模型訓練中使用;另一種是私有的,專為訓練特定領域AI模型而設計。對于希望保持數據私密性但仍希望OpenAI模型更好地理解其領域的組織來說,私有數據集尤為適用。迄今為止,OpenAI已與冰島政府和Mieeind ehf等機構展開合作,提升GPT-4在冰島語方面的應用能力,并與自由法律項目合作,提高模型對法律文件的理解水平。