文字嵌入推理文件
支援的模型和硬體
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
支援的模型和硬體
我們正在持續擴充套件對其他模型型別的支援,並計劃在未來的更新中包含它們。
支援的嵌入模型
文字嵌入推理目前支援帶有絕對位置的 Nomic、BERT、CamemBERT、XLM-RoBERTa 模型,帶有 Alibi 位置的 JinaBERT 模型,以及帶有 Rope 位置的 Mistral、Alibaba GTE、Qwen2 模型,以及 MPNet、ModernBERT 和 Qwen3。
以下是一些當前支援模型的示例
MTEB 排名 | 模型大小 | 模型型別 | 模型 ID |
---|---|---|---|
2 | 8B(非常昂貴) | Qwen3 | Qwen/Qwen3-Embedding-8B |
4 | 0.6B | Qwen3 | Qwen/Qwen3-Embedding-0.6B |
6 | 7B(非常昂貴) | Qwen2 | Alibaba-NLP/gte-Qwen2-7B-instruct |
7 | 0.5B | XLM-RoBERTa | intfloat/multilingual-e5-large-instruct |
14 | 1.5B(昂貴) | Qwen2 | Alibaba-NLP/gte-Qwen2-1.5B-instruct |
17 | 7B(非常昂貴) | Mistral | Salesforce/SFR-Embedding-2_R |
34 | 0.5B | XLM-RoBERTa | Snowflake/snowflake-arctic-embed-l-v2.0 |
40 | 0.3B | Alibaba GTE | Snowflake/snowflake-arctic-embed-m-v2.0 |
51 | 0.3B | Bert | WhereIsAI/UAE-Large-V1 |
不適用 | 0.4B | Alibaba GTE | Alibaba-NLP/gte-large-en-v1.5 |
不適用 | 0.4B | ModernBERT | answerdotai/ModernBERT-large |
不適用 | 0.3B | NomicBert | nomic-ai/nomic-embed-text-v2-moe |
不適用 | 0.1B | NomicBert | nomic-ai/nomic-embed-text-v1 |
不適用 | 0.1B | NomicBert | nomic-ai/nomic-embed-text-v1.5 |
不適用 | 0.1B | JinaBERT | jinaai/jina-embeddings-v2-base-en |
不適用 | 0.1B | JinaBERT | jinaai/jina-embeddings-v2-base-code |
不適用 | 0.1B | MPNet | sentence-transformers/all-mpnet-base-v2 |
要探索效能最佳的文字嵌入模型列表,請訪問大規模文字嵌入基準(MTEB)排行榜。
支援的重排序模型和序列分類模型
文字嵌入推理目前支援帶有絕對位置的 CamemBERT 和 XLM-RoBERTa 序列分類模型。
以下是一些當前支援模型的示例
任務 | 模型型別 | 模型 ID |
---|---|---|
重排序 | XLM-RoBERTa | BAAI/bge-reranker-large |
重排序 | XLM-RoBERTa | BAAI/bge-reranker-base |
重排序 | GTE | Alibaba-NLP/gte-multilingual-reranker-base |
重排序 | ModernBert | Alibaba-NLP/gte-reranker-modernbert-base |
情感分析 | RoBERTa | SamLowe/roberta-base-go_emotions |
支援的硬體
文字嵌入推理支援在 CPU、圖靈 (T4、RTX 2000 系列等)、安培 80 (A100、A30)、安培 86 (A10、A40 等)、Ada Lovelace (RTX 4000 系列等) 和 Hopper (H100) 架構上使用。
該庫**不**支援 CUDA 計算能力 < 7.5,這意味著 V100、Titan V、GTX 1000 系列等不支援。
要利用您的 GPU,請確保安裝 NVIDIA 容器工具包,並使用 CUDA 版本 12.2 或更高版本的 NVIDIA 驅動程式。
在下表中查詢適用於您硬體的適當 Docker 映象
架構 | 影像 |
---|---|
CPU | ghcr.io/huggingface/text-embeddings-inference:cpu-1.8 |
Volta | 不支援 |
圖靈 (T4、RTX 2000 系列等) | ghcr.io/huggingface/text-embeddings-inference:turing-1.8(實驗性) |
安培 80 (A100、A30) | ghcr.io/huggingface/text-embeddings-inference:1.8 |
安培 86 (A10、A40 等) | ghcr.io/huggingface/text-embeddings-inference:86-1.8 |
Ada Lovelace (RTX 4000 系列等) | ghcr.io/huggingface/text-embeddings-inference:89-1.8 |
Hopper (H100) | ghcr.io/huggingface/text-embeddings-inference:hopper-1.8(實驗性) |
警告:由於存在精度問題,Turing 映象預設關閉 Flash Attention。您可以透過使用 USE_FLASH_ATTENTION=True
環境變數來開啟 Flash Attention v1。