text-generation-inference 文件

快速指南

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

快速指南

最簡單的入門方法是使用官方 Docker 容器。按照他們的安裝說明安裝 Docker。

啟動 TGI

假設您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。這是一個如何操作的示例

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4 \
    --model-id $model

如果您想提供受限或私有模型,請參閱本指南以獲取詳細說明。

支援的硬體

TGI 支援各種硬體。請務必根據您希望部署 TGI 的硬體,查閱在 Nvidia GPU 上使用 TGI在 AMD GPU 上使用 TGI在 Intel GPU 上使用 TGI在 Gaudi 上使用 TGI在 Inferentia 上使用 TGI 等指南。

使用 TGI

TGI 執行後,您可以使用 generate 端點或與 OpenAI 聊天完成 API 相容的 Messages API 發出請求。要了解如何查詢端點,請檢視使用 TGI 部分,我們在其中展示了使用實用程式庫和 UI 的示例。下面您可以看到一個簡單的程式碼片段,用於查詢端點。

Python
JavaScript
cURL
import requests

headers = {
    "Content-Type": "application/json",
}

data = {
    'inputs': 'What is Deep Learning?',
    'parameters': {
        'max_new_tokens': 20,
    },
}

response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}

要檢視所有可能的部署標誌和選項,您可以使用 --help 標誌。可以配置分片數量、量化、生成引數等。

docker run ghcr.io/huggingface/text-generation-inference:3.3.4 --help
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.