國(guó)內(nèi)科技創(chuàng)新企業(yè)聯(lián)匯科技近日宣布,其開源智能體核心模型OmDet-Turbo已成功入駐全球知名的Transformers開源庫(kù)。這一成就標(biāo)志著OmDet-Turbo模型在算法創(chuàng)新與實(shí)際應(yīng)用性能上獲得了國(guó)際認(rèn)可。
自O(shè)mDet-Turbo模型在GitHub平臺(tái)發(fā)布以來,其憑借出色的算法優(yōu)化和高效的目標(biāo)檢測(cè)能力,迅速吸引了業(yè)界的目光,收獲了超過1500次的點(diǎn)贊關(guān)注。這一模型的加入,不僅豐富了Transformers庫(kù)的預(yù)訓(xùn)練模型和工具集,更為全球數(shù)百萬開發(fā)者在自然語(yǔ)言處理及機(jī)器學(xué)習(xí)任務(wù)中提供了更多選擇。
Transformers庫(kù)由Hugging Face公司維護(hù),是全球范圍內(nèi)廣泛使用的開源項(xiàng)目之一。此次OmDet-Turbo模型能夠入駐其中,得益于其在實(shí)際應(yīng)用中展現(xiàn)出的高效、穩(wěn)定性能,以及在目標(biāo)檢測(cè)領(lǐng)域的卓越表現(xiàn)。該模型通過引入高效融合頭(EFH)模塊,有效降低了特征編碼和多模態(tài)融合的計(jì)算復(fù)雜性,同時(shí)保持了高水平的泛化能力和檢測(cè)精度。
OmDet-Turbo模型不僅具備實(shí)時(shí)檢測(cè)的能力,還結(jié)合了開放詞表目標(biāo)檢測(cè)(OVD)的先進(jìn)技術(shù)。其獨(dú)特的EFH模塊利用高效的語(yǔ)言感知編碼器(ELA-Encoder)和解碼器(ELA-Decoder),替代了傳統(tǒng)的重型編碼器和ROIAlign模塊,實(shí)現(xiàn)了更為高效的視覺-語(yǔ)言融合。這一創(chuàng)新設(shè)計(jì)使得OmDet-Turbo在COCO和LVIS數(shù)據(jù)集上的零樣本檢測(cè)性能接近當(dāng)前最先進(jìn)的監(jiān)督模型,同時(shí)在ODinW和OVDeval數(shù)據(jù)集上刷新了性能基準(zhǔn),分別取得了30.1和26.86的AP分?jǐn)?shù)。
OmDet-Turbo在實(shí)際應(yīng)用中的推理速度同樣令人矚目。該模型的基礎(chǔ)版本(OmDet-Turbo-Base)在A100 GPU上的推理速度可達(dá)到100.2 FPS,有效解決了OVD模型在實(shí)際應(yīng)用中推理速度慢的難題。這一卓越性能使得OmDet-Turbo成為實(shí)時(shí)目標(biāo)檢測(cè)任務(wù)中的佼佼者,為全球研究人員和開發(fā)者提供了更為強(qiáng)大和便捷的開放技術(shù)。