推理提供商文件
影像-文字到文字
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
影像-文字到文字
影像-文字到文字模型接收影像和文字提示作為輸入並輸出文字。這些模型也稱為視覺語言模型或 VLM。與影像到文字模型的區別在於,這些模型需要額外的文字輸入,不將模型限制在影像字幕等特定用例中,並且還可以訓練接受對話作為輸入。
有關 `影像-文字到文字` 任務的更多詳細資訊,請檢視其專用頁面!您將找到示例和相關材料。
推薦模型
- Qwen/Qwen2.5-VL-7B-Instruct:強大的影像-文字到文字模型。
在此處探索所有可用模型並找到最適合您的模型。
使用 API
語言
客戶端
提供商
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="cerebras",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this image in one sentence."
},
{
"type": "image_url",
"image_url": {
"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
}
}
]
}
],
)
print(completion.choices[0].message)
API 規範
有關對話式影像-文字到文字模型的 API 規範,請參閱聊天補全 API 文件。
< > 在 GitHub 上更新