OpenAI近期啟動(dòng)了一個(gè)為期12天的創(chuàng)新發(fā)布周期,命名為“shipmas”,旨在推出一系列令人矚目的新功能、產(chǎn)品及演示。在這一系列發(fā)布活動(dòng)的第二天,OpenAI揭曉了強(qiáng)化微調(diào)(Reinforcement Fine-Tuning, RFT)技術(shù),為開(kāi)發(fā)者和機(jī)器學(xué)習(xí)工程師提供了一個(gè)強(qiáng)大的工具,用于構(gòu)建針對(duì)特定復(fù)雜領(lǐng)域任務(wù)的專(zhuān)家級(jí)模型。
強(qiáng)化微調(diào)項(xiàng)目通過(guò)引入全新的模型定制技術(shù),允許開(kāi)發(fā)者利用高質(zhì)量的任務(wù)集對(duì)模型進(jìn)行微調(diào)。這一過(guò)程中,開(kāi)發(fā)者可以利用參考答案來(lái)評(píng)估模型的響應(yīng),從而顯著提升模型在特定領(lǐng)域任務(wù)中的推理能力和準(zhǔn)確性。這一技術(shù)的出現(xiàn),為模型在特定領(lǐng)域的表現(xiàn)帶來(lái)了質(zhì)的飛躍。
根據(jù)OpenAI的官方介紹,開(kāi)發(fā)人員現(xiàn)在可以使用從數(shù)十到數(shù)千個(gè)的高質(zhì)量任務(wù)來(lái)定制OpenAI的模型,并通過(guò)提供的參考答案對(duì)模型的響應(yīng)進(jìn)行評(píng)分。這一創(chuàng)新技術(shù)不僅強(qiáng)化了模型推理類(lèi)似問(wèn)題的方式,還顯著提高了其在特定領(lǐng)域任務(wù)上的準(zhǔn)確性。通過(guò)這一方法,模型能夠更精準(zhǔn)地理解和解決復(fù)雜問(wèn)題。
與標(biāo)準(zhǔn)微調(diào)方法不同,強(qiáng)化微調(diào)利用強(qiáng)化學(xué)習(xí)算法,將模型的性能從高中水平提升至專(zhuān)家博士級(jí)別。這一技術(shù)不僅僅是對(duì)模型進(jìn)行簡(jiǎn)單的模仿訓(xùn)練,而是通過(guò)讓模型學(xué)習(xí)全新的推理方式,并通過(guò)評(píng)分機(jī)制強(qiáng)化正確的推理路線,從而僅使用少量示例就能顯著提高模型的性能。
強(qiáng)化微調(diào)技術(shù)的另一個(gè)顯著優(yōu)勢(shì)是,它支持用戶(hù)利用自己的黃金數(shù)據(jù)集創(chuàng)建獨(dú)特的模型,并將其應(yīng)用于法律、金融、工程、保險(xiǎn)等需要深厚專(zhuān)業(yè)知識(shí)的領(lǐng)域。這一技術(shù)為這些領(lǐng)域的專(zhuān)家提供了一個(gè)強(qiáng)大的工具,使他們能夠更有效地利用人工智能輔助完成復(fù)雜任務(wù)。
OpenAI特別鼓勵(lì)研究機(jī)構(gòu)、高校和企業(yè)申請(qǐng)使用這一技術(shù),特別是那些目前由專(zhuān)家領(lǐng)導(dǎo)執(zhí)行一系列狹窄但復(fù)雜任務(wù)的機(jī)構(gòu)。OpenAI認(rèn)為,強(qiáng)化微調(diào)在結(jié)果具有客觀“正確”答案且大多數(shù)專(zhuān)家會(huì)達(dá)成一致的任務(wù)中表現(xiàn)出色,因此在法律、保險(xiǎn)、醫(yī)療、金融、工程等領(lǐng)域具有廣闊的應(yīng)用前景。
參與者可以提前訪問(wèn)Alpha版的強(qiáng)化微調(diào)API,并在特定領(lǐng)域任務(wù)中進(jìn)行測(cè)試。OpenAI還鼓勵(lì)參與者分享自己的數(shù)據(jù)集,以共同改進(jìn)OpenAI的模型。這一舉措不僅促進(jìn)了技術(shù)的迭代升級(jí),還加強(qiáng)了行業(yè)內(nèi)的合作與交流。
OpenAI預(yù)計(jì)將在2025年初公開(kāi)發(fā)布強(qiáng)化微調(diào)功能。OpenAI的首席執(zhí)行官山姆·阿爾特曼對(duì)這一技術(shù)表示了高度贊賞:“強(qiáng)化微調(diào)的效果出奇地好,它是我2024年最大的驚喜之一。”這一技術(shù)的推出,無(wú)疑將為人工智能領(lǐng)域的發(fā)展注入新的活力。