optimum-tpu 文件

在 Google Cloud TPU 例項上部署文字生成推理伺服器 (TGI)

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

在 Google Cloud TPU 例項上部署文字生成推理伺服器 (TGI)

文字生成推理 (TGI) 可以在 TPU 上部署大型語言模型 (LLM),Optimum TPU 提供專門最佳化的 TGI 執行時,充分利用 TPU 硬體的優勢。

TGI 還提供與 OpenAI 相容的 API,使其易於與各種工具整合。

有關支援模型的列表,請檢視支援的模型頁面

在 Cloud TPU 例項上部署 TGI

本指南假設您已有一個正在執行的 Cloud TPU 例項。如果沒有,請參閱我們的部署指南

您有兩種部署 TGI 的選擇

  1. 使用我們預構建的 TGI 映象(推薦)
  2. 手動構建映象以獲取最新功能

選項 1:使用預構建映象

optimum-tpu 映象可在 ghcr.io/huggingface/optimum-tpu:v0.2.3-tgi 獲取。有關最新的 TGI 映象,請檢視 optimum-tpu 容器文件。有關如何從預構建映象啟動 TGI 容器的教程,請參閱服務教程。以下是如何部署它:

docker run -p 8080:80 \
        --shm-size 16GB \
        --privileged \
        --net host \
        -e LOG_LEVEL=text_generation_router=debug \
        -v ~/hf_data:/data \
        -e HF_TOKEN=<your_hf_token_here> \
        ghcr.io/huggingface/optimum-tpu:v0.2.3-tgi \
        --model-id google/gemma-2b-it \
        --max-input-length 512 \
        --max-total-tokens 1024 \
        --max-batch-prefill-tokens 512 \
        --max-batch-total-tokens 1024
您需要替換使用您可以在 [此處](https://huggingface.co/settings/tokens) 獲取的 HuggingFace 訪問令牌
如果您已經透過 `huggingface-cli login` 登入,則可以設定 HF_TOKEN=$(cat ~/.cache/huggingface/token) 以便更方便。

您還可以使用 GCP 提供的映象,如optimum-tpu 容器頁面中所述

選項 2:手動構建映象

為了獲取最新功能(optimum-tpu 的 main 分支)或進行自定義修改,請自行構建映象

  1. 克隆倉庫
git clone https://github.com/huggingface/optimum-tpu.git
  1. 構建映象
make tpu-tgi
  1. 執行容器
HF_TOKEN=<your_hf_token_here>
MODEL_ID=google/gemma-2b-it

sudo docker run --net=host \
                --privileged \
                -v $(pwd)/data:/data \
                -e HF_TOKEN=${HF_TOKEN} \
                huggingface/optimum-tpu:latest \
                --model-id ${MODEL_ID} \
                --max-concurrent-requests 4 \
                --max-input-length 32 \
                --max-total-tokens 64 \
                --max-batch-size 1

對服務執行請求

您可以使用 /generate/generate_stream 路由查詢模型

curl localhost/generate \
    -X POST \
    -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
    -H 'Content-Type: application/json'
curl localhost/generate_stream \
    -X POST \
    -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
    -H 'Content-Type: application/json'

© . This site is unofficial and not affiliated with Hugging Face, Inc.