12 月 7 日消息,OpenAI 啟動了為期 12 天的“shipmas”新品發布周期,將推出一系列新功能、新產品以及相關演示。本次活動第二日,OpenAI 推出了強化微調(Reinforcement Fine-Tuning),幫助開發者和機器學習工程師打造針對特定復雜領域任務的專家模型。
該項目通過全新的模型定制技術,讓開發者可以使用高質量任務集對模型進行微調,并利用參考答案評估模型的響應,從而提升模型在特定領域任務中的推理能力和準確性。
強化微調簡介
IT之家附上官方介紹:開發人員能夠使用數十到數千個高質量任務,定制 OpenAI 的模型,并使用提供的參考答案對模型的響應進行評分。官方表示這項技術強化了模型推理類似問題的方式,并提高了其在該領域特定任務上的準確性。
與標準微調不同,RFT 利用強化學習算法,可以將模型性能從高中水平提升到專家博士水平。
RFT 與監督式微調不同,它不是讓模型模仿輸入,而是教模型以全新的方式進行推理,通過對模型答案進行評分并強化正確的推理路線,RFT 只需少量示例即可顯著提高模型性能。
RFT 支持用戶利用自己的黃金數據集創建獨特的模型,并將其應用于法律、金融、工程、保險等需要專業知識的領域。
強化微調面向群體
OpenAI 勵研究機構、高校和企業申請,特別是那些目前由專家領導執行一系列狹窄復雜任務,并且將受益于人工智能協助的機構。
OpenAI 表示強化微調在結果具有客觀“正確”答案,且大多數專家會同意的任務中表現出色,因此認為在法律、保險、醫療、金融、工程等領域會有更好的表現。
參與者可提前訪問 Alpha 版強化微調 API,并在特定領域任務中進行測試,此外 OpenAI 鼓勵參與者分享數據集,共同改進 OpenAI 模型。
OpenAI 預計 2025 年初公開發布強化微調功能。
OpenAI 首席執行官山姆?阿爾特曼(Sam Altman)表示:“強化微調,效果出奇地好;它是我 2024 年最大的驚喜之一。”
【來源:IT之家】