【ITBEAR科技資訊】1月15日消息,近日,谷歌研究院公布了一項新的研究成果,他們利用自家BIG-Bench基準測試構建了一個名為“BIG-Bench Mistake”的數據集。該數據集的主要目的是評估當前市場上流行的語言模型在“出錯概率”及“糾錯能力”方面的表現。
此前,對于大型語言模型的錯誤識別和自我修正能力的評估一直缺乏有效的數據集。為了填補這一空白,谷歌研究人員精心設計了“BIG-Bench Mistake”專用基準數據集。他們首先使用PaLM語言模型在BIG-Bench基準測試中執行了五項任務,并在其生成的“思維鏈”中故意引入邏輯錯誤。然后,這些包含錯誤的思維鏈被重新提交給模型,以測試其能否識別出其中的錯誤。
經過多輪迭代和優化,研究人員最終構建了一個包含255項邏輯錯誤的“BIG-Bench Mistake”數據集。這些錯誤被設計成簡單明了的形式,以便于語言模型從基本的邏輯錯誤開始逐步提高其錯誤識別能力。
據ITBEAR科技資訊了解,谷歌研究人員利用該數據集對市場上的多個語言模型進行了測試。結果顯示,雖然大多數模型能夠在一定程度上識別并修正推理過程中的邏輯錯誤,但這一過程往往不夠理想,仍需要人工干預來完善模型的輸出。
在測試中表現最好的模型也僅能識別出52.9%的邏輯錯誤,這表明即便是目前最先進的大型語言模型在自我糾錯方面仍存在較大提升空間。谷歌研究人員認為,“BIG-Bench Mistake”數據集將有助于改進模型的自我糾錯能力。通過針對相關測試任務進行微調,即便是小型模型也能在監督大型模型時表現出更好的性能。
因此,谷歌提出了一種新的思路,即使用專用的小型模型來監督大型模型的運行。這種做法不僅有利于提高效率、降低AI部署成本,還能更方便地對模型進行微調。未來,這種大小模型協同工作的方式或許將成為提升AI性能的重要方向之一。