hugs 文件

在HUGS上執行推理

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

在HUGS上執行推理

如前所述,HUGS 基於文字生成推理 (TGI);這意味著在已部署的 HUGS 容器上執行推理與 TGI 完全相同。有關更多資訊,請參閱文字生成推理文件關於如何使用 TGI

在下面顯示的推理示例中,假定主機為localhost,這在使用埠轉發透過 Kubernetes 部署 HUGS 或在當前例項上使用docker run部署 HUGS 時的情況。如果您已透過特定 IP、主機和/或 SSL (HTTPS) 在入口下部署了 Kubernetes 上的 HUGS,請注意您應該使用您的主機或 IP 更新下面的localhost引用。

訊息API

訊息API是遵循OpenAI OpenAPI規範的,位於/v1/chat/completions下的OpenAI相容端點。OpenAI相容意味著推理不僅可以使用cURL執行,還可以使用Python中的huggingface_hub.InferenceClientopenai.OpenAI SDK,以及任何其他程式語言中任何OpenAI相容的SDK。

cURL

使用cURL非常簡單,可以安裝和使用。

curl https://:8080/v1/chat/completions \
    -X POST \
    -d '{"model":"tgi","messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
    -H 'Content-Type: application/json'

Python

如前所述,您可以使用huggingface_hub Python SDK 中的huggingface_hub.InferenceClient(推薦),也可以使用openai Python SDK,或任何具有 OpenAI 相容介面且可以使用訊息 API 的 SDK。

huggingface_hub

您可以透過pip安裝它,命令為pip install --upgrade --quiet huggingface_hub,然後執行以下程式碼片段來模擬上述cURL命令,即向訊息API傳送請求。

from huggingface_hub import InferenceClient

client = InferenceClient(base_url="https://:8080", api_key="-")

chat_completion = client.chat.completions.create(
    messages=[
        {"role":"user","content":"What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

閱讀更多關於huggingface_hub.InferenceClient.chat_completion方法的資訊。

openai

另外,您也可以透過openai使用訊息API;您可以透過pip install --upgrade openai安裝它,然後執行

from openai import OpenAI

client = OpenAI(base_url="https://:8080/v1/", api_key="-")

chat_completion = client.chat.completions.create(
    model="tgi",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

其他端點

除了上述端點之外,TGI 還提供了TGI OpenAPI 規範中定義的其他端點,這些端點不僅可用於推理,還可用於分詞、指標或獲取有關已部署模型的資訊。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.