在近期科技界的矚目之下,OpenAI啟動了一場為期兩周的盛大新品發(fā)布活動,命名為“shipmas”,旨在帶來一系列革新性的功能、產(chǎn)品及演示。活動進入第二天,OpenAI隆重推出了強化微調(diào)(Reinforcement Fine-Tuning,簡稱RFT)技術(shù),這一突破性進展為開發(fā)者和機器學(xué)習(xí)工程師在構(gòu)建針對復(fù)雜特定領(lǐng)域任務(wù)的專家模型上開辟了新的道路。
強化微調(diào)技術(shù)通過一種創(chuàng)新的模型定制方法,使得開發(fā)者能夠利用精選的高質(zhì)量任務(wù)集對模型進行精細調(diào)整。該技術(shù)引入了參考答案來評估模型的響應(yīng),進而顯著提升模型在特定領(lǐng)域任務(wù)中的推理能力和準確性。這一方法不僅深化了模型處理類似問題的能力,還極大提高了其在該領(lǐng)域特定任務(wù)上的表現(xiàn)精度。
OpenAI官方對強化微調(diào)技術(shù)進行了詳細介紹:開發(fā)者可以運用數(shù)十至數(shù)千個高質(zhì)量任務(wù),對OpenAI的模型進行個性化定制,并通過參考答案對模型的回答進行評分。官方指出,RFT技術(shù)通過強化模型推理過程,顯著提高了其在特定領(lǐng)域任務(wù)上的準確性。
與傳統(tǒng)的微調(diào)方法相比,強化微調(diào)利用強化學(xué)習(xí)算法,將模型的表現(xiàn)從一般高水平提升至專家級水平。RFT不僅超越了標準的監(jiān)督式微調(diào),更讓模型學(xué)會以一種全新的方式進行推理。通過對模型答案進行評分并強化正確的推理路徑,RFT技術(shù)僅需少量示例便能顯著提升模型性能。
RFT技術(shù)還允許用戶利用自己的黃金數(shù)據(jù)集創(chuàng)建獨特的模型,并將其應(yīng)用于法律、金融、工程、保險等需要深厚專業(yè)知識的領(lǐng)域。這一技術(shù)的推出,無疑為這些領(lǐng)域帶來了人工智能輔助的新機遇。
OpenAI此次活動特別面向研究機構(gòu)、高校和企業(yè)開放申請,尤其是那些目前由專家執(zhí)行一系列復(fù)雜狹窄任務(wù),且有望從人工智能輔助中受益的機構(gòu)。OpenAI表示,強化微調(diào)技術(shù)在結(jié)果具有客觀“正確”答案,且大多數(shù)專家會達成一致的任務(wù)中表現(xiàn)出色,因此在法律、保險、醫(yī)療、金融、工程等領(lǐng)域具有廣泛的應(yīng)用前景。
參與者將有機會提前訪問Alpha版的強化微調(diào)API,并在特定領(lǐng)域任務(wù)中進行測試。OpenAI還鼓勵參與者分享數(shù)據(jù)集,共同推動OpenAI模型的改進。這一舉措不僅促進了技術(shù)的開放共享,還加速了人工智能技術(shù)的迭代升級。
OpenAI預(yù)計將于2025年初公開發(fā)布強化微調(diào)功能。OpenAI首席執(zhí)行官山姆·阿爾特曼對強化微調(diào)技術(shù)給予了高度評價:“強化微調(diào)的效果令人驚嘆,它是我2024年最大的驚喜之一。”這一技術(shù)的推出,無疑將為人工智能技術(shù)的發(fā)展和應(yīng)用開啟新的篇章。