text-generation-inference 文件

將 TGI 與英特爾 GPU 結合使用

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

將 TGI 與英特爾 GPU 結合使用

TGI 最佳化模型支援 Intel 資料中心 GPU Max1100Max1550,推薦透過 Docker 使用。

在由英特爾 GPU 驅動的伺服器上,可以使用以下命令啟動 TGI

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --rm --privileged --cap-add=sys_nice \
    --device=/dev/dri \
    --ipc=host --shm-size 1g --net host -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4-intel-xpu \
    --model-id $model --cuda-graphs 0

將 TGI 與英特爾 CPU 結合使用

Intel® Extension for PyTorch (IPEX) 也為英特爾 CPU 提供了進一步的最佳化。IPEX 提供了諸如閃光注意力、頁面注意力、Add + LayerNorm、ROPE 等最佳化操作。

在由英特爾 CPU 驅動的伺服器上,可以使用以下命令啟動 TGI

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --rm --privileged --cap-add=sys_nice \
    --device=/dev/dri \
    --ipc=host --shm-size 1g --net host -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4-intel-cpu \
    --model-id $model --cuda-graphs 0

啟動的 TGI 伺服器隨後可以從客戶端查詢,請務必檢視使用 TGI 指南。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.