Transformers(變形金剛)
加入 Hugging Face 社群
並獲得增強的文件體驗
概述
量化透過以較低精度儲存權重來降低載入和使用模型的記憶體需求,同時儘量保持儘可能高的準確性。權重通常以全精度 (fp32) 浮點表示儲存,但考慮到當今模型的大尺寸,半精度 (fp16 或 bf16) 越來越受歡迎。一些量化方法甚至可以將精度進一步降低到整數表示,例如 int8 或 int4。
Transformers 支援多種量化方法,每種方法都有其優缺點,因此您可以根據您的特定用例選擇最佳方法。有些方法需要校準才能獲得更高的準確性和極致壓縮(1-2 位),而其他方法則可以直接進行即時量化。
使用下面的 Space 可幫助您根據硬體和要量化的位數選擇量化方法。
資源
如果您是量化新手,我們建議您檢視 DeepLearning.AI 合作提供的這些適合初學者的量化課程。
使用者友好的量化工具
如果您正在尋找使用者友好的量化體驗,可以使用以下社群空間和筆記本
< > 在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.