在人工智能領域的不斷前行中,一項旨在促進科研合作與技術轉化的聯合基金引發了廣泛關注。CCF-網易雷火聯合基金自2023年成立以來,已成功助力多項尖端技術的研發,并在2024中國計算機大會(CNCC2024)上揭曉了首批優秀成果。其中,浙江大學軟件學院的研究員王皓波所帶領的團隊,憑借在“基于大小模型協同的低資源標注技術”領域的突破,成為此次發布的亮點之一。
王皓波在大會上詳細闡述了團隊的研究成果。他指出,數據標注作為AI發展的“燃料”,其效率與質量對AI應用效果至關重要。然而,在垂直領域的應用中,通用大模型往往難以直接輸出標注結果,仍需大量人工輔助。為此,團隊聚焦于如何利用大模型與小模型的協同作用,實現低資源條件下的高效、精準標注。
研究過程分為三個階段。首先,團隊在魯棒噪聲標簽學習方面取得進展,提出了ProMix算法,通過創新的樣本選擇方式,成功解決了噪聲標簽學習中的樣本不平衡問題。其次,團隊研發了FreeAL框架,實現了大模型與小模型的協同標注,通過迭代優化,顯著提升了標注的準確率。最后,團隊基于FreeAL框架,進一步研發了CORAL協作式自動標注系統,通過引入人機協同的標注范式,實現了高質量的數據標注,極大地降低了時間和人工成本。
王皓波在演講中強調,在實際生產環境中,機器標注仍需人類領域知識的支撐。因此,團隊正在探索將大小模型協同標注系統與網易有靈平臺的AOP體系深度集成,以構建更加高效、智能的人機協同標注體系。
CCF-網易雷火聯合基金的支持為團隊的研究提供了堅實保障。王皓波表示,感謝基金提供的平臺與合作機會,以及團隊成員的辛勤付出。他相信,團隊的研究成果將為數據標注領域的發展貢獻一份力量,共同推動人工智能技術邁向新的高度。