【ITBEAR】meta公司近日宣布,繼9月推出Llama 3.2的1B與3B模型后,他們于10月24日發(fā)布了這兩個(gè)模型的量化版本。通過(guò)量化,模型大小平均縮減了56%,RAM使用量降低了41%,并且模型運(yùn)行速度提升了2至4倍,功耗也有所下降,這使得模型更易于部署在移動(dòng)設(shè)備上。
meta采用了兩種量化方法:量化感知訓(xùn)練(QAT)和后訓(xùn)練量化(SpinQuant)。前者注重模型的準(zhǔn)確性,后者則強(qiáng)調(diào)模型的可移植性。
針對(duì)Llama 3.2的1B和3B模型,meta分別推出了兩款量化版本。這些量化模型相較于非量化的Llama BF16模型,速度更快,RAM占用更少,功耗更低,同時(shí)保持了與Llama BF16版本相近的精度。
盡管量化后的模型支持的Token上下文有所減少,但meta的測(cè)試顯示,量化版本的基準(zhǔn)測(cè)試結(jié)果與原版相差無(wú)幾。
meta已在一加12、三星S24+/S22及蘋(píng)果iOS設(shè)備等移動(dòng)平臺(tái)上測(cè)試了這些量化模型,并計(jì)劃未來(lái)通過(guò)神經(jīng)處理單元(NPU)進(jìn)一步提升模型性能。