Optimum 文件

Gaudi 上的 TGI

您正在檢視的是需要從原始碼安裝。如果您想透過常規的 pip 安裝,請檢視最新的穩定版本 (v1.27.0)。
Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Gaudi 上的 TGI

在 Intel® Gaudi® AI 加速器上支援文字生成推理 (TGI),透過 Intel® Gaudi® TGI 倉庫。只需拉取 TGI Gaudi Docker 映象並啟動本地 TGI 服務例項,即可在 Gaudi 系統上啟動 TGI 服務。

例如,可以在 Gaudi 上為 Llama 2 7B 模型啟動 TGI 服務,命令如下:

docker run \
  -p 8080:80 \
  -v $PWD/data:/data \
  --runtime=habana \
  -e HABANA_VISIBLE_DEVICES=all \
  -e OMPI_MCA_btl_vader_single_copy_mechanism=none \
  --cap-add=sys_nice \
  --ipc=host ghcr.io/huggingface/tgi-gaudi:2.0.1 \
  --model-id meta-llama/Llama-2-7b-hf \
  --max-input-tokens 1024 \
  --max-total-tokens 2048

然後您可以傳送一個簡單的請求:

curl 127.0.0.1:8080/generate \
  -X POST \
  -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}' \
  -H 'Content-Type: application/json'

要執行靜態基準測試,請參閱 TGI 的基準測試工具。有關在單或多 HPU 裝置系統上執行服務例項的更多示例,請參見此處

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.