指標

TGI 暴露了多個指標，可以透過 `/metrics` Prometheus 端點收集。這些指標可用於監控 TGI 的效能、自動擴縮部署以及幫助識別瓶頸。

暴露的指標如下：

指標名稱	描述	型別	單位
`tgi_batch_current_max_tokens`	當前批次的最大 token 數	Gauge	數量
`tgi_batch_current_size`	當前批次大小	Gauge	數量
`tgi_batch_decode_duration`	按方法（預填充或解碼）解碼批次所花費的時間	直方圖	秒
`tgi_batch_filter_duration`	按方法（預填充或解碼）過濾批次和傳送生成 token 所花費的時間	直方圖	秒
`tgi_batch_forward_duration`	按方法（預填充或解碼）的批次前向持續時間	直方圖	秒
`tgi_batch_inference_count`	按方法（預填充或解碼）的推理呼叫次數	計數器	數量
`tgi_batch_inference_duration`	批次推理持續時間	直方圖	秒
`tgi_batch_inference_success`	按方法（預填充或解碼）的成功推理呼叫次數	計數器	數量
`tgi_batch_next_size`	下一批次的批次大小	直方圖	數量
`tgi_queue_size`	當前佇列大小	Gauge	數量
`tgi_request_count`	請求總數	計數器	數量
`tgi_request_duration`	處理請求所花費的總時間（端到端延遲）	直方圖	秒
`tgi_request_generated_tokens`	每個請求生成的 token 數	直方圖	數量
`tgi_request_inference_duration`	請求推理持續時間	直方圖	秒
`tgi_request_input_length`	每個請求的輸入 token 長度	直方圖	數量
`tgi_request_max_new_tokens`	每個請求的最大新 token 數	直方圖	數量
`tgi_request_mean_time_per_token_duration`	每個請求的平均每 token 時間（token 間延遲）	直方圖	秒
`tgi_request_queue_duration`	每個請求在佇列中花費的時間	直方圖	秒
`tgi_request_skipped_tokens`	每個請求的推測 token 數	直方圖	數量
`tgi_request_success`	成功請求的數量	計數器
`tgi_request_validation_duration`	驗證請求所花費的時間	直方圖	秒

< > 在 GitHub 上更新

文字生成推理

指標