在HUGS上執行推理

如前所述，HUGS 基於文字生成推理 (TGI)；這意味著在已部署的 HUGS 容器上執行推理與 TGI 完全相同。有關更多資訊，請參閱文字生成推理文件關於如何使用 TGI。

在下面顯示的推理示例中，假定主機為localhost，這在使用埠轉發透過 Kubernetes 部署 HUGS 或在當前例項上使用docker run部署 HUGS 時的情況。如果您已透過特定 IP、主機和/或 SSL (HTTPS) 在入口下部署了 Kubernetes 上的 HUGS，請注意您應該使用您的主機或 IP 更新下面的localhost引用。

訊息API

訊息API是遵循OpenAI OpenAPI規範的，位於/v1/chat/completions下的OpenAI相容端點。OpenAI相容意味著推理不僅可以使用cURL執行，還可以使用Python中的huggingface_hub.InferenceClient和openai.OpenAI SDK，以及任何其他程式語言中任何OpenAI相容的SDK。

cURL

使用cURL非常簡單，可以安裝和使用。

curl https://:8080/v1/chat/completions \
    -X POST \
    -d '{"model":"tgi","messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
    -H 'Content-Type: application/json'

Python

如前所述，您可以使用huggingface_hub Python SDK 中的huggingface_hub.InferenceClient（推薦），也可以使用openai Python SDK，或任何具有 OpenAI 相容介面且可以使用訊息 API 的 SDK。

huggingface_hub

您可以透過pip安裝它，命令為pip install --upgrade --quiet huggingface_hub，然後執行以下程式碼片段來模擬上述cURL命令，即向訊息API傳送請求。

from huggingface_hub import InferenceClient

client = InferenceClient(base_url="https://:8080", api_key="-")

chat_completion = client.chat.completions.create(
    messages=[
        {"role":"user","content":"What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

閱讀更多關於huggingface_hub.InferenceClient.chat_completion方法的資訊。

openai

另外，您也可以透過openai使用訊息API；您可以透過pip install --upgrade openai安裝它，然後執行

from openai import OpenAI

client = OpenAI(base_url="https://:8080/v1/", api_key="-")

chat_completion = client.chat.completions.create(
    model="tgi",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

其他端點

除了上述端點之外，TGI 還提供了TGI OpenAPI 規範中定義的其他端點，這些端點不僅可用於推理，還可用於分詞、指標或獲取有關已部署模型的資訊。

< > 在 GitHub 上更新