推理提供商文件

影像-文字到文字

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

影像-文字到文字

影像-文字到文字模型接收影像和文字提示作為輸入並輸出文字。這些模型也稱為視覺語言模型或 VLM。與影像到文字模型的區別在於,這些模型需要額外的文字輸入,不將模型限制在影像字幕等特定用例中,並且還可以訓練接受對話作為輸入。

有關 `影像-文字到文字` 任務的更多詳細資訊,請檢視其專用頁面!您將找到示例和相關材料。

推薦模型

在此探索所有可用模型並找到最適合您的模型。

使用 API

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="cerebras",
    api_key=os.environ["HF_TOKEN"],
)

completion = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe this image in one sentence."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
                    }
                }
            ]
        }
    ],
)

print(completion.choices[0].message)

API 規範

有關對話式影像-文字到文字模型的 API 規範,請參閱聊天補全 API 文件

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.