Hugging Face
模型
資料集
空間
社群
文件
企業版
定價
登入
註冊
Learn
text-generation-inference 文件
外部資源
文字生成推理
🏡 檢視所有文件
AWS Trainium & Inferentia
加速
Argilla
AutoTrain
Bitsandbytes
聊天使用者介面
資料集檢視器
資料集
在 AWS 上部署
Diffusers
Distilabel
評估
Gradio
Hub
Hub Python 庫
Huggingface.js
推理端點(專用)
推理服務提供商
LeRobot
排行榜
Lighteval
Microsoft Azure
Optimum
PEFT
Safetensors
Sentence Transformers
TRL
任務
文字嵌入推理
文字生成推理
Tokenizers
Transformers
Transformers.js
smolagents
timm
搜尋文件
主頁
英
快速入門
文字生成推理
快速上手
支援的模型
在 Nvidia GPU 上使用 TGI
在 AMD GPU 上使用 TGI
在 Intel Gaudi 上使用 TGI
在 AWS Trainium 和 Inferentia 上使用 TGI
在 Google TPU 上使用 TGI
在 Intel GPU 上使用 TGI
從原始碼安裝
多後端支援
內部架構
使用統計
教程
使用 TGI
準備模型以供服務
服務私有及門控模型
使用 TGI CLI
非核心模型服務
安全
使用 Guidance、JSON、工具
視覺語言模型
使用 Prometheus 和 Grafana 監控 TGI
訓練 Medusa
後端
Neuron
Gaudi
TensorRT-LLM
Llamacpp
參考
所有 TGI CLI 選項
匯出的指標
API 參考
概念指南
V3 更新、快取和分塊
流式傳輸
量化
張量並行
PagedAttention
Safetensors
Flash Attention
推測 (Medusa, ngram)
Guidance 如何工作(透過輪廓)
LoRA (低秩適應)
外部資源
加入 Hugging Face 社群
並獲得增強的文件體驗
在模型、資料集和 Spaces 上進行協作
透過加速推理獲得更快的示例
切換文件主題
註冊
開始使用
外部資源
Adyen 撰寫了一篇詳細文章,介紹了 TGI 的主要元件:路由器和伺服器之間的相互作用。
使用 TGI 進行大規模 LLM 推理 (Martin Iglesias Goyanes - Adyen, 2024)
<
>
在 GitHub 上更新
←
LoRA (低秩適應)
外部
資源
©
. This site is unofficial and not affiliated with Hugging Face, Inc.