text-generation-inference 文件

指標

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

指標

TGI 暴露了多個指標,可以透過 `/metrics` Prometheus 端點收集。這些指標可用於監控 TGI 的效能、自動擴縮部署以及幫助識別瓶頸。

暴露的指標如下:

指標名稱 描述 型別 單位
tgi_batch_current_max_tokens 當前批次的最大 token 數 Gauge 數量
tgi_batch_current_size 當前批次大小 Gauge 數量
tgi_batch_decode_duration 按方法(預填充或解碼)解碼批次所花費的時間 直方圖
tgi_batch_filter_duration 按方法(預填充或解碼)過濾批次和傳送生成 token 所花費的時間 直方圖
tgi_batch_forward_duration 按方法(預填充或解碼)的批次前向持續時間 直方圖
tgi_batch_inference_count 按方法(預填充或解碼)的推理呼叫次數 計數器 數量
tgi_batch_inference_duration 批次推理持續時間 直方圖
tgi_batch_inference_success 按方法(預填充或解碼)的成功推理呼叫次數 計數器 數量
tgi_batch_next_size 下一批次的批次大小 直方圖 數量
tgi_queue_size 當前佇列大小 Gauge 數量
tgi_request_count 請求總數 計數器 數量
tgi_request_duration 處理請求所花費的總時間(端到端延遲) 直方圖
tgi_request_generated_tokens 每個請求生成的 token 數 直方圖 數量
tgi_request_inference_duration 請求推理持續時間 直方圖
tgi_request_input_length 每個請求的輸入 token 長度 直方圖 數量
tgi_request_max_new_tokens 每個請求的最大新 token 數 直方圖 數量
tgi_request_mean_time_per_token_duration 每個請求的平均每 token 時間(token 間延遲) 直方圖
tgi_request_queue_duration 每個請求在佇列中花費的時間 直方圖
tgi_request_skipped_tokens 每個請求的推測 token 數 直方圖 數量
tgi_request_success 成功請求的數量 計數器
tgi_request_validation_duration 驗證請求所花費的時間 直方圖
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.