推出 Command A Vision:專為企業打造的多模態 AI

今天我們推出 **Command A Vision**:一款擁有開放權重的尖端視覺-語言模型。Command A Vision 在多模態視覺任務中表現出色,同時保持了 Command A 強大的文字能力。作為 Cohere 最新旗艦模型,Command A Vision 是一個基於 Command A 構建的 112B 密集模型。我們很榮幸在此釋出其權重給社群。
Command A Vision 賦能企業透過文件光學字元識別(OCR)和影像分析,自動化繁瑣任務,從視覺資料中獲取有價值的洞察,並做出高度準確、資料驅動的決策。無論是解釋帶有複雜圖表的產品手冊,還是分析現實世界場景的照片進行風險檢測,Command A Vision 都擅長應對最嚴苛的企業視覺挑戰。
指標
Command A Vision 在標準視覺基準測試中表現出領先的多模態效能,超越了 GPT 4.1、Llama 4 Maverick、Mistral Medium 和 Pixtral Large 等模型。我們選擇了九個多樣化的基準測試,既代表了典型的企業用例,也代表了通用的標準學術評估。Command A Vision 在圖表、文件和 OCR 分析方面表現出特別的優勢,同時在 MathVista 等數學或原型推理評估中也表現出色(73.5%)。總的來說,如以下表格所示,它超越了領先的非思維視覺-語言模型。(注:當其他提供商報告或公共排行榜中沒有資料時,缺少的資料透過內部盡力評估(通常透過 VLMEvalKit)進行補充。)
模型 | 圖表問答 | 資訊視覺問答 | AI2D | MMMU (CoT) | MathVista | 文件問答 | 文字視覺問答 | OCRBench | 真實世界問答 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|
Command A Vision | 90.9% | 82.9% | 94.0% | 65.3% | 73.5% | 95.9% | 84.8% | 86.9% | 73.6% | 83.1% |
GPT-4.1 (2025-04-14) | 82.7% | 70.0% | 86.5% | 74.8% | 72.2% | 88.6% | 71.1% | 83.4% | 78.0% | 78.6% |
Pixtral Large | 88.1% | 59.9% | 93.8% | 64.0% | 69.4% | 93.3% | 79.3% | 74.1% | 69.3% | 76.8% |
Mistral Medium 3 | 82.6% | 71.5% | 93.7% | 65.0% | 70.5% | 95.3% | 83.5% | 75.7% | 67.2% | 78.3% |
Llama 3.2V 90B | 85.8% | 56.8% | 92.3% | 60.6% | 57.3% | 90.1% | 83.4% | 78.3% | 69.8% | 74.9% |
Llama 4 Maverick | 90.0% | 77.1% | 84.4% | 73.4% | 73.7% | 94.4% | 81.6% | 80.0% | 70.4% | 80.5% |
訓練過程和架構細節
我們的模型遵循 Llava 架構,即使用 MLP 聯結器將來自 SigLIP2-patch16-512 視覺編碼器的視覺特徵轉換為(軟)視覺 token。每張影像根據其尺寸(以最接近的寬高比為目標)被分割成最多 12 個圖塊,每個圖塊的解析度為 512x512。此外,還包含一個大小為 512x512 的單個全域性摘要縮圖。經過 MLP 和 畫素洗牌——確保每個圖塊對應 256 個 token——後,所得特徵被傳遞到 Command A 文字塔,一個密集型、111B 引數的文字 LLM。透過這種方式,單張影像最多消耗 3328 個 token。
我們分三個階段訓練了 Command A Vision——視覺-語言對齊、監督微調(SFT)和使用強化學習(RL)進行後期訓練。在第一階段(對齊),視覺編碼器和語言模型權重保持凍結。這種方法使得影像編碼器特徵能夠對映到語言模型嵌入空間。相比之下,在 SFT 階段,我們同時在多樣化的指令遵循多模態任務資料集上訓練了視覺編碼器、視覺介面卡和語言模型。然後,我們對多個專家進行了多模態模型合併,類似於 Command A,以平衡我們的資料混合的各個部分,從而反映我們專家和企業用例的相對重要性。最後,在後期訓練階段,我們採用了正則化方法,以及多種 RLHF 演算法,例如線上 對比策略梯度,以使模型與企業和安全需求對齊,同時進一步提升其效能。
為企業量身定製的功能和效率
Command A Vision 旨在為企業提供對其最關鍵的功能。它保留了 Command A 的許多文字功能,並結合了其他關鍵的、企業特定的文字功能,如高階檢索增強生成(RAG)和跨多種關鍵商業語言的多語言效能。此外,Command A Vision 僅需兩個或更少的 GPU 即可私密部署。它只需要兩塊 A100,或一塊 H100 用於 4 位量化。
Command A Vision 入門
使用我們的 Hugging Face Space 或在 Cohere 平臺上試用 Command A Vision。
要在本地執行,請安裝 transformers 並執行
# pip install "transformers[dev-torch]@git+https://github.com/huggingface/transformers.git"
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText
model_id = "CohereLabs/command-a-vision-07-2025"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
# Format message with the Command-A-Vision chat template
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://images.pexels.com/photos/1108099/pexels-photo-1108099.jpeg",
},
{"type": "text", "text": "what is in this image?"},
],
},
]
inputs = processor.apply_chat_template(
messages,
padding=True,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
gen_tokens = model.generate(**inputs, max_new_tokens=300)
print(
processor.tokenizer.decode(
gen_tokens[0][inputs.input_ids.shape[1] :], skip_special_tokens=True
)
)
有關更多資訊,請參閱 Hugging Face Hub 上的 CohereLabs/command-a-vision-07-2025。
您還可以透過 Hugging Face 推理提供商使用該模型
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="cohere",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="CohereLabs/command-a-vision-07-2025",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this image in one sentence."
},
{
"type": "image_url",
"image_url": {
"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
}
}
]
}
],
)
print(completion.choices[0].message)
最後,這項工作得益於 Cohere 核心多模態團隊的努力,包括:Alexis Chevalier、Bharat Venkitesh、Evgenia Rusak、Hugo Dalla-Torre、Julian Mack、Kyle Duffy、Sebastian Hofstätter、Victor Machado、Viraat Aryabumi、Vlad Shmyhlo、Yongshuo Zong、Cassie Cao 和 Pierre Harvey Richemond。
參考資料
[1] Command A:一款企業級大型語言模型
[2] SigLIP 2:具有改進語義理解、定位和密集特徵的多語言視覺-語言編碼器
[3] 視覺指令微調
[4] 我們離 GPT-4V 還有多遠?用開源套件縮小與商業多模態模型的差距
[5] 對比策略梯度:以監督友好的方式在序列級分數上對齊 LLM