Hugging Face,這一在人工智能領(lǐng)域備受矚目的平臺(tái),近期宣布了一項(xiàng)重大進(jìn)展:他們成功研發(fā)并開源了一款名為SmolVLM的創(chuàng)新視覺語言模型。此舉意味著,廣大研究者與技術(shù)開發(fā)者將能夠自由訪問該模型的全部資源,包括模型檢查點(diǎn)、數(shù)據(jù)集、訓(xùn)練方法及配套工具,所有內(nèi)容均遵循Apache 2.0許可協(xié)議。
在架構(gòu)設(shè)計(jì)上,SmolVLM巧妙融合了Idefics3的先進(jìn)理念,并選用了性能卓越的SmolLM2 1.7B作為其語言處理的核心。該模型通過引入一項(xiàng)創(chuàng)新的像素混洗技術(shù),實(shí)現(xiàn)了視覺信息的高效壓縮,壓縮率驚人地提升了9倍,從而大幅提高了處理速度。
為了訓(xùn)練這一強(qiáng)大的模型,Hugging Face精心挑選了Cauldron和Docmatix兩個(gè)大型數(shù)據(jù)集。他們還對(duì)SmolLM2進(jìn)行了上下文擴(kuò)展,使其能夠輕松應(yīng)對(duì)更長的文本輸入以及多張圖像的處理需求。這些優(yōu)化措施不僅顯著降低了內(nèi)存占用,還有效解決了大型模型在普通設(shè)備上運(yùn)行時(shí)的性能瓶頸問題。
在內(nèi)存管理方面,SmolVLM展現(xiàn)出了令人驚嘆的能力。它能夠?qū)?84x384像素的圖像塊高效編碼為81個(gè)tokens,這一表現(xiàn)在同類模型中堪稱佼佼者。在與知名模型Qwen2-VL的對(duì)比測試中,SmolVLM在相同測試圖片下的內(nèi)存占用大幅降低。在多項(xiàng)基準(zhǔn)測試中,SmolVLM更是展現(xiàn)出了卓越的性能優(yōu)勢:其預(yù)填充吞吐量比Qwen2-VL快了3.3至4.5倍,而生成吞吐量更是達(dá)到了驚人的7.5至16倍提升。