最近,追一科技發(fā)布了RoFormerV2模型,憑借追一獨(dú)創(chuàng)的旋轉(zhuǎn)位置編碼技術(shù)(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等當(dāng)前的主流預(yù)訓(xùn)練模型。
在權(quán)威的中文NLP(自然語言處理)測試榜單CLUE上,RoFormerV2以僅3億的參數(shù)量,超過了若干10億+參數(shù)量的模型進(jìn)入榜單前5名(截止2022年3月21日),同時(shí)它也是榜上前5名中參數(shù)量最少的模型,基本實(shí)現(xiàn)了同一尺度下的模型最優(yōu)解。
RoFormerV2采用了追一獨(dú)創(chuàng)的旋轉(zhuǎn)位置編碼(RoPE)技術(shù),完全不同于主流的BERT、RoBERTa、Albert、Electra所使用的方法,這讓RoFormerV2與這些模型在效果上拉開差距。
旋轉(zhuǎn)位置編碼(RoPE)技術(shù)是追一在2021年提出,利用向量之間的旋轉(zhuǎn)角度來表示特征之間的相對(duì)關(guān)系,這一思路不同于此前所有的方法,知名的技術(shù)極客組織EleutherAI認(rèn)為RoPE是“革命性”的,具有開創(chuàng)式意義。Google在今年提出的FLASH模型論文中則明確指出RoPE對(duì)模型的效果有明顯的提升作用,并將其作為模型的默認(rèn)方法。
同時(shí),RoPE還被用在了許多最新的模型當(dāng)中,例如EleutherAI新發(fā)布的60億和200億參數(shù)的GPT模型中就用了RoPE位置編碼。
而Google最近大火的5400億參數(shù)的PaLM模型中也采用了追一的RoPE技術(shù),PaLM是一個(gè)支持多語種、多任務(wù)形式的超大型模型,它不僅可以理解人類語言,還可以理解機(jī)器代碼。PaLM在上百個(gè)自然語言理解與自然語言生成任務(wù)上測試,并在大多數(shù)任務(wù)上取得了最優(yōu)效果。這些最新方法都采用了RoPE的設(shè)計(jì),進(jìn)一步驗(yàn)證了它的優(yōu)越性,使之有望成為預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)方法。
隨著“大模型”時(shí)代的來臨,許多用戶希望用優(yōu)秀的模型來解決實(shí)際問題,但這些“龐然大物”所需要的硬件配置、高額投入,讓人望而卻步。同時(shí), 利用“大模型”進(jìn)行NLP技術(shù)實(shí)驗(yàn)研究,所需要的算力與時(shí)間成本越來越高。不管是NLP技術(shù)研究還是應(yīng)用實(shí)踐,追一科技都一直致力于開放、開源生態(tài)的參與、建設(shè),助力用戶和開發(fā)者創(chuàng)新研究。
RoFormerV2作為同體量效果最好的預(yù)訓(xùn)練模型,可以在有限的機(jī)器資源下進(jìn)行訓(xùn)練與微調(diào)并獲得超越體型更大的模型的效果,因此我們將其開源供大家進(jìn)行研究使用,為推動(dòng)中文NLP發(fā)展繼續(xù)貢獻(xiàn)一份力量。
【來源:松果財(cái)經(jīng)】