在英特爾®硬體上使用 TEI 容器

本指南解釋瞭如何構建和部署針對英特爾®硬體（包括 CPU、XPU 和 HPU）最佳化的 `text-embeddings-inference` 容器。

CPU

構建 Docker 映象

要構建針對英特爾® CPU 最佳化的容器，請執行以下命令

platform="cpu"

docker build . -f Dockerfile-intel --build-arg PLATFORM=$platform -t tei_cpu_ipex

部署 Docker 容器

要在英特爾® CPU 上部署模型，請使用以下命令

model='Qwen/Qwen3-Embedding-0.6B'
volume=$PWD/data

docker run -p 8080:80 -v $volume:/data tei_cpu_ipex --model-id $model

XPU

構建 Docker 映象

要構建針對英特爾® XPU 最佳化的容器，請執行以下命令

platform="xpu"

docker build . -f Dockerfile-intel --build-arg PLATFORM=$platform -t tei_xpu_ipex

部署 Docker 容器

要在英特爾® XPU 上部署模型，請使用以下命令

model='Qwen/Qwen3-Embedding-0.6B'
volume=$PWD/data

docker run -p 8080:80 -v $volume:/data --device=/dev/dri -v /dev/dri/by-path:/dev/dri/by-path tei_xpu_ipex --model-id $model --dtype float16

HPU

TEI 僅支援 Gaudi 2 和 Gaudi 3。Gaudi 1 **不**受支援。

構建 Docker 映象

要構建針對英特爾® HPU (Gaudi) 最佳化的容器，請執行以下命令

platform="hpu"

docker build . -f Dockerfile-intel --build-arg PLATFORM=$platform -t tei_hpu

部署 Docker 容器

要在英特爾® HPU (Gaudi) 上部署模型，請使用以下命令

model='Qwen/Qwen3-Embedding-0.6B'
volume=$PWD/data

docker run -p 8080:80 -v $volume:/data --runtime=habana -e HABANA_VISIBLE_DEVICES=all -e MAX_WARMUP_SEQUENCE_LENGTH=512 tei_hpu --model-id $model --dtype bfloat16

預構建的 Docker 映象

為了方便起見，GitHub Container Registry (GHCR) 上提供了預構建的 Docker 映象。您可以直接拉取這些映象，無需手動構建它們

CPU

要使用針對英特爾® CPU 最佳化的預構建映象，請執行

docker pull ghcr.io/huggingface/text-embeddings-inference:cpu-ipex-latest

XPU

要使用針對英特爾® XPU 最佳化的預構建映象，請執行

docker pull ghcr.io/huggingface/text-embeddings-inference:xpu-ipex-latest

HPU

TEI 僅支援 Gaudi 2 和 Gaudi 3。Gaudi 1 **不**受支援。

要使用針對英特爾® HPU (Gaudi) 最佳化的預構建映象，請執行

docker pull ghcr.io/huggingface/text-embeddings-inference:hpu-latest

< > 在 GitHub 上更新

文字嵌入推理

在英特爾®硬體上使用 TEI 容器

CPU

構建 Docker 映象

部署 Docker 容器

XPU

構建 Docker 映象

部署 Docker 容器

HPU

構建 Docker 映象

部署 Docker 容器

預構建的 Docker 映象

CPU

XPU

HPU