文字嵌入推理文件

支援的模型和硬體

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

支援的模型和硬體

我們正在持續擴充套件對其他模型型別的支援,並計劃在未來的更新中包含它們。

支援的嵌入模型

文字嵌入推理目前支援帶有絕對位置的 Nomic、BERT、CamemBERT、XLM-RoBERTa 模型,帶有 Alibi 位置的 JinaBERT 模型,以及帶有 Rope 位置的 Mistral、Alibaba GTE、Qwen2 模型,以及 MPNet、ModernBERT 和 Qwen3。

以下是一些當前支援模型的示例

MTEB 排名 模型大小 模型型別 模型 ID
2 8B(非常昂貴) Qwen3 Qwen/Qwen3-Embedding-8B
4 0.6B Qwen3 Qwen/Qwen3-Embedding-0.6B
6 7B(非常昂貴) Qwen2 Alibaba-NLP/gte-Qwen2-7B-instruct
7 0.5B XLM-RoBERTa intfloat/multilingual-e5-large-instruct
14 1.5B(昂貴) Qwen2 Alibaba-NLP/gte-Qwen2-1.5B-instruct
17 7B(非常昂貴) Mistral Salesforce/SFR-Embedding-2_R
34 0.5B XLM-RoBERTa Snowflake/snowflake-arctic-embed-l-v2.0
40 0.3B Alibaba GTE Snowflake/snowflake-arctic-embed-m-v2.0
51 0.3B Bert WhereIsAI/UAE-Large-V1
不適用 0.4B Alibaba GTE Alibaba-NLP/gte-large-en-v1.5
不適用 0.4B ModernBERT answerdotai/ModernBERT-large
不適用 0.3B NomicBert nomic-ai/nomic-embed-text-v2-moe
不適用 0.1B NomicBert nomic-ai/nomic-embed-text-v1
不適用 0.1B NomicBert nomic-ai/nomic-embed-text-v1.5
不適用 0.1B JinaBERT jinaai/jina-embeddings-v2-base-en
不適用 0.1B JinaBERT jinaai/jina-embeddings-v2-base-code
不適用 0.1B MPNet sentence-transformers/all-mpnet-base-v2

要探索效能最佳的文字嵌入模型列表,請訪問大規模文字嵌入基準(MTEB)排行榜

支援的重排序模型和序列分類模型

文字嵌入推理目前支援帶有絕對位置的 CamemBERT 和 XLM-RoBERTa 序列分類模型。

以下是一些當前支援模型的示例

任務 模型型別 模型 ID
重排序 XLM-RoBERTa BAAI/bge-reranker-large
重排序 XLM-RoBERTa BAAI/bge-reranker-base
重排序 GTE Alibaba-NLP/gte-multilingual-reranker-base
重排序 ModernBert Alibaba-NLP/gte-reranker-modernbert-base
情感分析 RoBERTa SamLowe/roberta-base-go_emotions

支援的硬體

文字嵌入推理支援在 CPU、圖靈 (T4、RTX 2000 系列等)、安培 80 (A100、A30)、安培 86 (A10、A40 等)、Ada Lovelace (RTX 4000 系列等) 和 Hopper (H100) 架構上使用。

該庫**不**支援 CUDA 計算能力 < 7.5,這意味著 V100、Titan V、GTX 1000 系列等不支援。

要利用您的 GPU,請確保安裝 NVIDIA 容器工具包,並使用 CUDA 版本 12.2 或更高版本的 NVIDIA 驅動程式。

在下表中查詢適用於您硬體的適當 Docker 映象

架構 影像
CPU ghcr.io/huggingface/text-embeddings-inference:cpu-1.8
Volta 不支援
圖靈 (T4、RTX 2000 系列等) ghcr.io/huggingface/text-embeddings-inference:turing-1.8(實驗性)
安培 80 (A100、A30) ghcr.io/huggingface/text-embeddings-inference:1.8
安培 86 (A10、A40 等) ghcr.io/huggingface/text-embeddings-inference:86-1.8
Ada Lovelace (RTX 4000 系列等) ghcr.io/huggingface/text-embeddings-inference:89-1.8
Hopper (H100) ghcr.io/huggingface/text-embeddings-inference:hopper-1.8(實驗性)

警告:由於存在精度問題,Turing 映象預設關閉 Flash Attention。您可以透過使用 USE_FLASH_ATTENTION=True 環境變數來開啟 Flash Attention v1。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.