在過去的一年里,大型語言模型(llm)有了飛速的發展,在本文中,我們將探討幾種(量化)的方式,除此以外,還會介紹分片及不同的保存和壓縮策略。
說明:每次加載LLM示例后,建議清除緩存,以防止出現OutOfMemory錯誤。
del model, tokenizer, pipe
import torch
torch.cuda.empty_cache()
如果在jupyter中無法釋放顯存,請重啟這個jupyter notebook。
模型加載
加載LLM的最直接、最普通的方式是通過