Lighteval 文件
指標列表
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
指標列表
多項選擇任務的自動指標
這些指標使用不同可能目標(target)的對數似然(log-likelihood)。
loglikelihood_acc
: 具有最佳對數機率(logprob)的選項是正確選項的例項比例 - 對於選項只包含單個詞元(token)的任務,也存在一個更快的版本 (loglikelihood_acc_single_token
)。loglikelihood_acc_norm
: 具有最佳對數機率(經序列長度歸一化)的選項是正確選項的例項比例 - 對於選項只包含單個詞元的任務,也存在一個更快的版本 (loglikelihood_acc_norm_single_token
)。loglikelihood_acc_norm_nospace
: 具有最佳對數機率(經序列長度歸一化)的選項是正確選項的例項比例,忽略第一個空格。loglikelihood_f1
: 多項選擇的語料庫級 F1 分數 - 對於選項只包含單個詞元的任務,也存在一個更快的版本 (loglikelihood_f1_single_token
)。mcc
: 馬修斯相關係數(一種衡量統計分佈之間一致性的指標)。recall_at_1
: 具有最佳對數機率的選項是正確選項的例項比例 - 對於每個選項只包含單個詞元的任務,也存在一個更快的版本 (recall_at_1_single_token
)。recall_at_2
: 具有第二佳或更佳對數機率的選項是正確選項的例項比例 - 對於每個選項只包含單個詞元的任務,也存在一個更快的版本 (recall_at_2_single_token
)。mrr
: 平均倒數排名(Mean reciprocal rank),一種衡量按正確性/相關性排序的選項排名質量的指標 - 對於選項只包含單個詞元的任務,也存在一個更快的版本 (mrr_single_token
)。target_perplexity
: 不同可用選項的困惑度。acc_golds_likelihood
: 有點不同,它實際檢查的是單個目標的平均對數機率是高於還是低於 0.5。multi_f1_numeric
: 多個正確目標(gold target)的對數似然 F1 分數。
所有這些指標也存在“單詞元”版本(loglikelihood_acc_single_token
, loglikelihood_acc_norm_single_token
, loglikelihood_f1_single_token
, mcc_single_token
, recall@2_single_token
和 mrr_single_token
)。當多項選擇選項只比較單個詞元(例如:“A” vs “B” vs “C” vs “D”,或“是” vs “否”)時,使用這些單詞元版本的指標可以將所用時間除以選項的數量。單單詞元評估還包括
multi_f1_numeric
: 計算所有可能選項的 f1 分數並取平均值。
困惑度和語言建模的自動指標
這些指標使用提示(prompt)的對數似然。
word_perplexity
: 按序列的詞數加權的困惑度(輸入的對數機率)。byte_perplexity
: 按序列的位元組數加權的困惑度(輸入的對數機率)。bits_per_byte
: 根據模型機率計算的每位元組平均位元數。log_prob
: 預測輸出的平均對數機率(對於語言建模是輸入的對數機率)。
生成任務的自動指標
這些指標需要模型生成一個輸出。因此它們的速度較慢。
- 基礎版
perfect_exact_match
: 預測與正確答案(gold)完全匹配的例項比例。exact_match
: 預測與正確答案匹配(除了邊界空白字元,即對兩者都應用strip
後)的例項比例。quasi_exact_match
: 歸一化後的預測與歸一化後的正確答案匹配的例項比例(歸一化處理包括空白字元、冠詞、大小寫等)。也存在其他變體,使用不同的歸一化器,例如quasi_exact_match_triviaqa
,它僅在對所有句子應用 strip 後對預測進行歸一化。prefix_exact_match
: 預測的開頭部分與正確答案匹配(除了邊界空白字元,即對兩者都應用strip
後)的例項比例。prefix_quasi_exact_match
: 歸一化後的預測開頭部分與歸一化後的正確答案匹配的例項比例(歸一化處理包括空白字元、冠詞、大小寫等)。exact_match_indicator
: 移除了某個指示符之前的部分上下文後的精確匹配。f1_score_quasi
: 模型輸出與正確答案之間詞語重疊的平均 F1 分數,兩者都先進行歸一化處理。f1_score
: 模型輸出與正確答案之間詞語重疊的平均 F1 分數,不進行歸一化處理。f1_score_macro
: 語料庫級的宏 F1 分數。f1_score_micro
: 語料庫級的微 F1 分數。maj_at_5
和maj_at_8
: 模型多數投票。從模型中獲取 n(5 或 8)個生成結果,並假設最頻繁出現的結果是實際預測。
- 摘要
rouge
: 平均 ROUGE 分數 (Lin, 2004)。rouge1
: 基於 1-gram 重疊的平均 ROUGE 分數 (Lin, 2004)。rouge2
: 基於 2-gram 重疊的平均 ROUGE 分數 (Lin, 2004)。rougeL
: 基於最長公共子序列重疊的平均 ROUGE 分數 (Lin, 2004)。rougeLsum
: 基於最長公共子序列重疊的平均 ROUGE 分數 (Lin, 2004)。rouge_t5
(BigBench): 所有可用 ROUGE 指標的語料庫級 ROUGE 分數。faithfulness
: 基於 Laban et al. (2022) 的 SummaC 方法的忠實度分數。extractiveness
: 基於 (Grusky et al., 2018) 的報告summarization_coverage
: 模型生成的摘要是源文件中提取片段的程度,summarization_density
: 模型生成的摘要是基於源文件的提取式摘要的程度,summarization_compression
: 模型生成的摘要相對於源文件的壓縮程度。
bert_score
: 報告模型生成與正確摘要之間的平均 BERTScore 精確率、召回率和 F1 分數 (Zhang et al., 2020)。
- 翻譯
bleu
: 語料庫級的 BLEU 分數 (Papineni et al., 2002) - 使用 sacrebleu 實現。bleu_1
: 基於 1-gram 重疊的平均樣本 BLEU 分數 (Papineni et al., 2002) - 使用 nltk 實現。bleu_4
: 基於 4-gram 重疊的平均樣本 BLEU 分數 (Papineni et al., 2002) - 使用 nltk 實現。chrf
: 字元 n-gram 匹配 F 分數。ter
: 翻譯編輯/錯誤率。
- 版權
copyright
: 報告longest_common_prefix_length
: 模型生成與參考之間最長公共字首的平均長度,edit_distance
: 模型生成與參考之間的平均 Levenshtein 編輯距離,edit_similarity
: 模型生成與參考之間的平均 Levenshtein 編輯相似度(按較長序列的長度歸一化)。
- 數學
quasi_exact_match_math
: 歸一化後的預測與歸一化後的正確答案匹配的例項比例(為數學問題進行歸一化,移除了 LaTeX 符號、單位等)。maj_at_4_math
: 多數選擇評估,對預測和正確答案使用數學歸一化。quasi_exact_match_gsm8k
: 歸一化後的預測與歸一化後的正確答案匹配的例項比例(為 gsm8k 進行歸一化,移除了 LaTeX 符號、單位等)。maj_at_8_gsm8k
: 多數選擇評估,對預測和正確答案使用 gsm8k 歸一化。
LLM-as-Judge(以大模型為評委)
llm_judge_gpt3p5
: 可用於任何生成任務,模型將由一個 GPT3.5 模型使用 OpenAI API 進行評分。llm_judge_llama_3_405b
: 可用於任何生成任務,模型將由一個 Llama 3 405B 模型使用 HuggingFace API 進行評分。llm_judge_multi_turn_gpt3p5
: 可用於任何生成任務,模型將由一個 GPT3.5 模型使用 OpenAI API 進行評分。它用於像 mt-bench 這樣的多輪任務。llm_judge_multi_turn_llama_3_405b
: 可用於任何生成任務,模型將由一個 Llama 3 405B 模型使用 HuggingFace API 進行評分。它用於像 mt-bench 這樣的多輪任務。