Hugging Face開源SmolVLM模型：20億參數助力端側推理新突破-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52010
待審：74
小程序：12
文章：1158077
會員：789

Hugging Face開源SmolVLM模型：20億參數助力端側推理新突破

發布時間：2024-11-27 20:25:23 作者：網友整理

Hugging Face，這一在人工智能領域備受矚目的平臺，近期宣布了一項重大進展：他們成功研發并開源了一款名為SmolVLM的創新視覺語言模型。此舉意味著，廣大研究者與技術開發者將能夠自由訪問該模型的全部資源，包括模型檢查點、數據集、訓練方法及配套工具，所有內容均遵循Apache 2.0許可協議。

在架構設計上，SmolVLM巧妙融合了Idefics3的先進理念，并選用了性能卓越的SmolLM2 1.7B作為其語言處理的核心。該模型通過引入一項創新的像素混洗技術，實現了視覺信息的高效壓縮，壓縮率驚人地提升了9倍，從而大幅提高了處理速度。

為了訓練這一強大的模型，Hugging Face精心挑選了Cauldron和Docmatix兩個大型數據集。他們還對SmolLM2進行了上下文擴展，使其能夠輕松應對更長的文本輸入以及多張圖像的處理需求。這些優化措施不僅顯著降低了內存占用，還有效解決了大型模型在普通設備上運行時的性能瓶頸問題。

在內存管理方面，SmolVLM展現出了令人驚嘆的能力。它能夠將384x384像素的圖像塊高效編碼為81個tokens，這一表現在同類模型中堪稱佼佼者。在與知名模型Qwen2-VL的對比測試中，SmolVLM在相同測試圖片下的內存占用大幅降低。在多項基準測試中，SmolVLM更是展現出了卓越的性能優勢：其預填充吞吐量比Qwen2-VL快了3.3至4.5倍，而生成吞吐量更是達到了驚人的7.5至16倍提升。

分享到：

標簽：新突破助力開源推理模型