text-generation-inference 文件
指標
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
指標
TGI 暴露了多個指標,可以透過 `/metrics` Prometheus 端點收集。這些指標可用於監控 TGI 的效能、自動擴縮部署以及幫助識別瓶頸。
暴露的指標如下:
指標名稱 | 描述 | 型別 | 單位 |
---|---|---|---|
tgi_batch_current_max_tokens | 當前批次的最大 token 數 | Gauge | 數量 |
tgi_batch_current_size | 當前批次大小 | Gauge | 數量 |
tgi_batch_decode_duration | 按方法(預填充或解碼)解碼批次所花費的時間 | 直方圖 | 秒 |
tgi_batch_filter_duration | 按方法(預填充或解碼)過濾批次和傳送生成 token 所花費的時間 | 直方圖 | 秒 |
tgi_batch_forward_duration | 按方法(預填充或解碼)的批次前向持續時間 | 直方圖 | 秒 |
tgi_batch_inference_count | 按方法(預填充或解碼)的推理呼叫次數 | 計數器 | 數量 |
tgi_batch_inference_duration | 批次推理持續時間 | 直方圖 | 秒 |
tgi_batch_inference_success | 按方法(預填充或解碼)的成功推理呼叫次數 | 計數器 | 數量 |
tgi_batch_next_size | 下一批次的批次大小 | 直方圖 | 數量 |
tgi_queue_size | 當前佇列大小 | Gauge | 數量 |
tgi_request_count | 請求總數 | 計數器 | 數量 |
tgi_request_duration | 處理請求所花費的總時間(端到端延遲) | 直方圖 | 秒 |
tgi_request_generated_tokens | 每個請求生成的 token 數 | 直方圖 | 數量 |
tgi_request_inference_duration | 請求推理持續時間 | 直方圖 | 秒 |
tgi_request_input_length | 每個請求的輸入 token 長度 | 直方圖 | 數量 |
tgi_request_max_new_tokens | 每個請求的最大新 token 數 | 直方圖 | 數量 |
tgi_request_mean_time_per_token_duration | 每個請求的平均每 token 時間(token 間延遲) | 直方圖 | 秒 |
tgi_request_queue_duration | 每個請求在佇列中花費的時間 | 直方圖 | 秒 |
tgi_request_skipped_tokens | 每個請求的推測 token 數 | 直方圖 | 數量 |
tgi_request_success | 成功請求的數量 | 計數器 | |
tgi_request_validation_duration | 驗證請求所花費的時間 | 直方圖 | 秒 |