GGUF

GGUF 是一種檔案格式，用於儲存用於 GGML 推理的模型，GGML 是一個用 C 和 C++ 編寫的快速輕量級推理框架。GGUF 是一種單檔案格式，包含模型元資料和張量。

GGUF 格式還支援多種量化資料型別（請參閱量化型別表以獲取支援的量化型別的完整列表），這大大節省了記憶體，使得像 Whisper 和 Llama 這樣的大型模型能夠在本地和邊緣裝置上進行推理。

Transformers 支援載入以 GGUF 格式儲存的模型，以進行進一步的訓練或微調。GGUF 檢查點被反量化為 fp32，其中完整的模型權重可用並與 PyTorch 相容。

支援 GGUF 的模型包括 Llama、Mistral、Qwen2、Qwen2Moe、Phi3、Bloom、Falcon、StableLM、GPT2、Starcoder2，以及更多

將 gguf_file 引數新增到 from_pretrained() 以指定要載入的 GGUF 檔案。

# pip install gguf
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF"
filename = "tinyllama-1.1b-chat-v1.0.Q6_K.gguf"

torch_dtype = torch.float32 # could be torch.float16 or torch.bfloat16 too
tokenizer = AutoTokenizer.from_pretrained(model_id, gguf_file=filename)
model = AutoModelForCausalLM.from_pretrained(model_id, gguf_file=filename, torch_dtype=torch_dtype)

完成模型調整後，使用 convert-hf-to-gguf.py 指令碼將其儲存並轉換回 GGUF 格式。

tokenizer.save_pretrained("directory")
model.save_pretrained("directory")

!python ${path_to_llama_cpp}/convert-hf-to-gguf.py ${directory}

< > 在 GitHub 上更新