影像-文字到文字

影像-文字到文字模型接收影像和文字提示作為輸入並輸出文字。這些模型也稱為視覺語言模型或 VLM。與影像到文字模型的區別在於，這些模型需要額外的文字輸入，不將模型限制在影像字幕等特定用例中，並且還可以訓練接受對話作為輸入。

有關 `影像-文字到文字` 任務的更多詳細資訊，請檢視其專用頁面！您將找到示例和相關材料。

使用 API

語言

客戶端

提供商

設定

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="cerebras",
    api_key=os.environ["HF_TOKEN"],
)

completion = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe this image in one sentence."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
                    }
                }
            ]
        }
    ],
)

print(completion.choices[0].message)

API 規範

有關對話式影像-文字到文字模型的 API 規範，請參閱聊天補全 API 文件。

< > 在 GitHub 上更新

推理服務提供商

影像-文字到文字

推薦模型

使用 API

API 規範