推理端點(專用)文件
文字嵌入推理 (TEI)
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
文字嵌入推理 (TEI)
文字嵌入推理 (TEI) 是一款強大、可用於生產環境的引擎,旨在快速高效地從各種模型生成文字嵌入。TEI 專為可擴充套件性和可靠性而構建,可簡化用於搜尋、檢索、聚類和語義理解任務的嵌入模型的部署。
主要功能
- 高效的資源利用:受益於小巧的 Docker 映象和快速的啟動時間。
- 動態批處理:TEI 採用基於令牌的動態批處理,從而最佳化推理期間的資源利用。
- 最佳化的推理:TEI 透過使用最佳化的 Transformer 程式碼進行推理,利用了 Flash Attention、Candle 和 cuBLASLt。
- 支援 Safetensors 和 ONNX 格式的模型
- 生產就緒:TEI 透過 Open Telemetry 支援分散式跟蹤,並匯出 Prometheus 指標。
配置
- 最大令牌數(每批次):在強制查詢等待內部佇列之前可以新增到批次的令牌數。
- 最大併發請求數:伺服器可以同時處理的最大請求數。
- 池化:用於覆蓋模型池化配置的設定。預設情況下不覆蓋模型配置。
支援的模型
您可以透過以下方式找到 TGI 支援的模型:
- 在 Hugging Face Hub 上瀏覽支援的模型
- 在 TEI 文件的支援的模型部分
參考資料
我們還建議閱讀 TEI 文件以獲取更深入的資訊。
< > 在 GitHub 上更新