hugs 文件
在HUGS上執行推理
並獲得增強的文件體驗
開始使用
在HUGS上執行推理
如前所述,HUGS 基於文字生成推理 (TGI);這意味著在已部署的 HUGS 容器上執行推理與 TGI 完全相同。有關更多資訊,請參閱文字生成推理文件關於如何使用 TGI。
在下面顯示的推理示例中,假定主機為localhost
,這在使用埠轉發透過 Kubernetes 部署 HUGS 或在當前例項上使用docker run
部署 HUGS 時的情況。如果您已透過特定 IP、主機和/或 SSL (HTTPS) 在入口下部署了 Kubernetes 上的 HUGS,請注意您應該使用您的主機或 IP 更新下面的localhost
引用。
訊息API
訊息API是遵循OpenAI OpenAPI規範的,位於/v1/chat/completions
下的OpenAI相容端點。OpenAI相容意味著推理不僅可以使用cURL
執行,還可以使用Python中的huggingface_hub.InferenceClient
和openai.OpenAI
SDK,以及任何其他程式語言中任何OpenAI相容的SDK。
cURL
使用cURL
非常簡單,可以安裝和使用。
curl https://:8080/v1/chat/completions \
-X POST \
-d '{"model":"tgi","messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
-H 'Content-Type: application/json'
Python
如前所述,您可以使用huggingface_hub
Python SDK 中的huggingface_hub.InferenceClient
(推薦),也可以使用openai
Python SDK,或任何具有 OpenAI 相容介面且可以使用訊息 API 的 SDK。
huggingface_hub
您可以透過pip安裝它,命令為pip install --upgrade --quiet huggingface_hub
,然後執行以下程式碼片段來模擬上述cURL
命令,即向訊息API傳送請求。
from huggingface_hub import InferenceClient
client = InferenceClient(base_url="https://:8080", api_key="-")
chat_completion = client.chat.completions.create(
messages=[
{"role":"user","content":"What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
閱讀更多關於huggingface_hub.InferenceClient.chat_completion
方法的資訊。
openai
另外,您也可以透過openai
使用訊息API;您可以透過pip install --upgrade openai
安裝它,然後執行
from openai import OpenAI
client = OpenAI(base_url="https://:8080/v1/", api_key="-")
chat_completion = client.chat.completions.create(
model="tgi",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
其他端點
除了上述端點之外,TGI 還提供了TGI OpenAPI 規範中定義的其他端點,這些端點不僅可用於推理,還可用於分詞、指標或獲取有關已部署模型的資訊。
< > 在 GitHub 上更新