【ITBEAR】在人工智能技術(shù)的浪潮中,數(shù)據(jù)標注作為推動AI發(fā)展的重要“燃料”,其效率和質(zhì)量直接關(guān)乎AI應用的成果。近日,一項名為“基于大小模型協(xié)同的低資源標注技術(shù)”的研究成果在2024中國計算機大會上亮相,引起了廣泛關(guān)注。
該技術(shù)由浙江大學軟件學院的王皓波老師帶領(lǐng)團隊研發(fā),并得到了CCF-網(wǎng)易雷火聯(lián)合基金的大力支持。通過整合大模型與小模型的優(yōu)勢,這一技術(shù)為解決數(shù)據(jù)標注中的低資源問題提供了創(chuàng)新思路。
在研究過程中,王皓波團隊首先聚焦于魯棒噪聲標簽學習,針對機器學習中普遍存在的噪聲標簽問題,提出了ProMix算法。該算法通過創(chuàng)新的樣本選擇方式,有效提升了模型在噪聲標簽環(huán)境下的學習性能,并在首屆IJCAI-噪聲標簽學習挑戰(zhàn)賽中取得了卓越成績。
隨著大模型時代的來臨,團隊進一步探索了大模型與小模型的協(xié)同應用。他們提出了FreeAL框架,旨在實現(xiàn)無人工主動學習。在該框架下,大模型利用其豐富的知識儲備進行初始標注,而小模型則負責進行魯棒蒸餾,通過協(xié)同訓練不斷優(yōu)化標注結(jié)果。
實驗結(jié)果顯示,F(xiàn)reeAL框架在多個任務上均取得了優(yōu)異表現(xiàn),甚至在部分數(shù)據(jù)集上超越了傳統(tǒng)的主動學習方法。這一成果不僅驗證了大小模型協(xié)同標注的有效性,也為數(shù)據(jù)標注領(lǐng)域帶來了新的可能性。
為了進一步提升數(shù)據(jù)標注的實用性和效率,王皓波團隊還研發(fā)了CORAL框架。這一協(xié)作式自動標注系統(tǒng)結(jié)合了大小模型的協(xié)同工作和人機協(xié)同的標注范式,旨在減少人工參與并確保高質(zhì)量的數(shù)據(jù)標注。通過引入手動精煉模塊和迭代過程控制器,CORAL框架實現(xiàn)了初步的自動化標注流程,并以低成本提供了可靠的標簽數(shù)據(jù)。
目前,該團隊正致力于將這一技術(shù)與網(wǎng)易有靈平臺的AOP體系進行深度集成,以構(gòu)建一個更加高效、智能的人機協(xié)同Agent調(diào)度體系。這將有助于提高數(shù)據(jù)標注的準確性和可靠性,并推動數(shù)據(jù)標注技術(shù)在更廣泛領(lǐng)域的應用。
王皓波團隊的這一系列研究成果充分展示了大小模型協(xié)同在低資源數(shù)據(jù)標注技術(shù)領(lǐng)域的巨大潛力,有望為人工智能技術(shù)的發(fā)展注入新的活力。