text-generation-inference 文件
快速指南
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
快速指南
最簡單的入門方法是使用官方 Docker 容器。按照他們的安裝說明安裝 Docker。
啟動 TGI
假設您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。這是一個如何操作的示例
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.4 \
--model-id $model
如果您想提供受限或私有模型,請參閱本指南以獲取詳細說明。
支援的硬體
TGI 支援各種硬體。請務必根據您希望部署 TGI 的硬體,查閱在 Nvidia GPU 上使用 TGI、在 AMD GPU 上使用 TGI、在 Intel GPU 上使用 TGI、在 Gaudi 上使用 TGI、在 Inferentia 上使用 TGI 等指南。
使用 TGI
TGI 執行後,您可以使用 generate
端點或與 OpenAI 聊天完成 API 相容的 Messages API 發出請求。要了解如何查詢端點,請檢視使用 TGI 部分,我們在其中展示了使用實用程式庫和 UI 的示例。下面您可以看到一個簡單的程式碼片段,用於查詢端點。
Python
JavaScript
cURL
import requests
headers = {
"Content-Type": "application/json",
}
data = {
'inputs': 'What is Deep Learning?',
'parameters': {
'max_new_tokens': 20,
},
}
response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}
要檢視所有可能的部署標誌和選項,您可以使用 --help
標誌。可以配置分片數量、量化、生成引數等。
docker run ghcr.io/huggingface/text-generation-inference:3.3.4 --help