支援的模型和硬體

我們正在持續擴充套件對其他模型型別的支援，並計劃在未來的更新中包含它們。

支援的嵌入模型

文字嵌入推理目前支援帶有絕對位置的 Nomic、BERT、CamemBERT、XLM-RoBERTa 模型，帶有 Alibi 位置的 JinaBERT 模型，以及帶有 Rope 位置的 Mistral、Alibaba GTE、Qwen2 模型，以及 MPNet、ModernBERT 和 Qwen3。

以下是一些當前支援模型的示例

MTEB 排名	模型大小	模型型別	模型 ID
2	8B（非常昂貴）	Qwen3	Qwen/Qwen3-Embedding-8B
4	0.6B	Qwen3	Qwen/Qwen3-Embedding-0.6B
6	7B（非常昂貴）	Qwen2	Alibaba-NLP/gte-Qwen2-7B-instruct
7	0.5B	XLM-RoBERTa	intfloat/multilingual-e5-large-instruct
14	1.5B（昂貴）	Qwen2	Alibaba-NLP/gte-Qwen2-1.5B-instruct
17	7B（非常昂貴）	Mistral	Salesforce/SFR-Embedding-2_R
34	0.5B	XLM-RoBERTa	Snowflake/snowflake-arctic-embed-l-v2.0
40	0.3B	Alibaba GTE	Snowflake/snowflake-arctic-embed-m-v2.0
51	0.3B	Bert	WhereIsAI/UAE-Large-V1
不適用	0.4B	Alibaba GTE	Alibaba-NLP/gte-large-en-v1.5
不適用	0.4B	ModernBERT	answerdotai/ModernBERT-large
不適用	0.3B	NomicBert	nomic-ai/nomic-embed-text-v2-moe
不適用	0.1B	NomicBert	nomic-ai/nomic-embed-text-v1
不適用	0.1B	NomicBert	nomic-ai/nomic-embed-text-v1.5
不適用	0.1B	JinaBERT	jinaai/jina-embeddings-v2-base-en
不適用	0.1B	JinaBERT	jinaai/jina-embeddings-v2-base-code
不適用	0.1B	MPNet	sentence-transformers/all-mpnet-base-v2

要探索效能最佳的文字嵌入模型列表，請訪問大規模文字嵌入基準（MTEB）排行榜。

支援的重排序模型和序列分類模型

文字嵌入推理目前支援帶有絕對位置的 CamemBERT 和 XLM-RoBERTa 序列分類模型。

以下是一些當前支援模型的示例

任務	模型型別	模型 ID
重排序	XLM-RoBERTa	BAAI/bge-reranker-large
重排序	XLM-RoBERTa	BAAI/bge-reranker-base
重排序	GTE	Alibaba-NLP/gte-multilingual-reranker-base
重排序	ModernBert	Alibaba-NLP/gte-reranker-modernbert-base
情感分析	RoBERTa	SamLowe/roberta-base-go_emotions

支援的硬體

文字嵌入推理支援在 CPU、圖靈 (T4、RTX 2000 系列等)、安培 80 (A100、A30)、安培 86 (A10、A40 等)、Ada Lovelace (RTX 4000 系列等) 和 Hopper (H100) 架構上使用。

該庫**不**支援 CUDA 計算能力 < 7.5，這意味著 V100、Titan V、GTX 1000 系列等不支援。

要利用您的 GPU，請確保安裝 NVIDIA 容器工具包，並使用 CUDA 版本 12.2 或更高版本的 NVIDIA 驅動程式。

在下表中查詢適用於您硬體的適當 Docker 映象

架構	影像
CPU	ghcr.io/huggingface/text-embeddings-inference:cpu-1.8
Volta	不支援
圖靈 (T4、RTX 2000 系列等)	ghcr.io/huggingface/text-embeddings-inference:turing-1.8（實驗性）
安培 80 (A100、A30)	ghcr.io/huggingface/text-embeddings-inference:1.8
安培 86 (A10、A40 等)	ghcr.io/huggingface/text-embeddings-inference:86-1.8
Ada Lovelace (RTX 4000 系列等)	ghcr.io/huggingface/text-embeddings-inference:89-1.8
Hopper (H100)	ghcr.io/huggingface/text-embeddings-inference:hopper-1.8（實驗性）

警告：由於存在精度問題，Turing 映象預設關閉 Flash Attention。您可以透過使用 USE_FLASH_ATTENTION=True 環境變數來開啟 Flash Attention v1。

< > 在 GitHub 上更新