指標列表

多項選擇任務的自動指標

這些指標使用不同可能目標（target）的對數似然（log-likelihood）。

loglikelihood_acc: 具有最佳對數機率（logprob）的選項是正確選項的例項比例 - 對於選項只包含單個詞元（token）的任務，也存在一個更快的版本 (loglikelihood_acc_single_token)。
loglikelihood_acc_norm: 具有最佳對數機率（經序列長度歸一化）的選項是正確選項的例項比例 - 對於選項只包含單個詞元的任務，也存在一個更快的版本 (loglikelihood_acc_norm_single_token)。
loglikelihood_acc_norm_nospace: 具有最佳對數機率（經序列長度歸一化）的選項是正確選項的例項比例，忽略第一個空格。
loglikelihood_f1: 多項選擇的語料庫級 F1 分數 - 對於選項只包含單個詞元的任務，也存在一個更快的版本 (loglikelihood_f1_single_token)。
mcc: 馬修斯相關係數（一種衡量統計分佈之間一致性的指標）。
recall_at_1: 具有最佳對數機率的選項是正確選項的例項比例 - 對於每個選項只包含單個詞元的任務，也存在一個更快的版本 (recall_at_1_single_token)。
recall_at_2: 具有第二佳或更佳對數機率的選項是正確選項的例項比例 - 對於每個選項只包含單個詞元的任務，也存在一個更快的版本 (recall_at_2_single_token)。
mrr: 平均倒數排名（Mean reciprocal rank），一種衡量按正確性/相關性排序的選項排名質量的指標 - 對於選項只包含單個詞元的任務，也存在一個更快的版本 (mrr_single_token)。
target_perplexity: 不同可用選項的困惑度。
acc_golds_likelihood: 有點不同，它實際檢查的是單個目標的平均對數機率是高於還是低於 0.5。
multi_f1_numeric: 多個正確目標（gold target）的對數似然 F1 分數。

所有這些指標也存在“單詞元”版本（loglikelihood_acc_single_token, loglikelihood_acc_norm_single_token, loglikelihood_f1_single_token, mcc_single_token, recall@2_single_token 和 mrr_single_token）。當多項選擇選項只比較單個詞元（例如：“A” vs “B” vs “C” vs “D”，或“是” vs “否”）時，使用這些單詞元版本的指標可以將所用時間除以選項的數量。單單詞元評估還包括

multi_f1_numeric: 計算所有可能選項的 f1 分數並取平均值。

困惑度和語言建模的自動指標

這些指標使用提示（prompt）的對數似然。

word_perplexity: 按序列的詞數加權的困惑度（輸入的對數機率）。
byte_perplexity: 按序列的位元組數加權的困惑度（輸入的對數機率）。
bits_per_byte: 根據模型機率計算的每位元組平均位元數。
log_prob: 預測輸出的平均對數機率（對於語言建模是輸入的對數機率）。

生成任務的自動指標

這些指標需要模型生成一個輸出。因此它們的速度較慢。

基礎版
- perfect_exact_match: 預測與正確答案（gold）完全匹配的例項比例。
- exact_match: 預測與正確答案匹配（除了邊界空白字元，即對兩者都應用 strip 後）的例項比例。
- quasi_exact_match: 歸一化後的預測與歸一化後的正確答案匹配的例項比例（歸一化處理包括空白字元、冠詞、大小寫等）。也存在其他變體，使用不同的歸一化器，例如 quasi_exact_match_triviaqa，它僅在對所有句子應用 strip 後對預測進行歸一化。
- prefix_exact_match: 預測的開頭部分與正確答案匹配（除了邊界空白字元，即對兩者都應用 strip 後）的例項比例。
- prefix_quasi_exact_match: 歸一化後的預測開頭部分與歸一化後的正確答案匹配的例項比例（歸一化處理包括空白字元、冠詞、大小寫等）。
- exact_match_indicator: 移除了某個指示符之前的部分上下文後的精確匹配。
- f1_score_quasi: 模型輸出與正確答案之間詞語重疊的平均 F1 分數，兩者都先進行歸一化處理。
- f1_score: 模型輸出與正確答案之間詞語重疊的平均 F1 分數，不進行歸一化處理。
- f1_score_macro: 語料庫級的宏 F1 分數。
- f1_score_micro: 語料庫級的微 F1 分數。
- maj_at_5 和 maj_at_8: 模型多數投票。從模型中獲取 n（5 或 8）個生成結果，並假設最頻繁出現的結果是實際預測。
摘要
- rouge: 平均 ROUGE 分數 (Lin, 2004)。
- rouge1: 基於 1-gram 重疊的平均 ROUGE 分數 (Lin, 2004)。
- rouge2: 基於 2-gram 重疊的平均 ROUGE 分數 (Lin, 2004)。
- rougeL: 基於最長公共子序列重疊的平均 ROUGE 分數 (Lin, 2004)。
- rougeLsum: 基於最長公共子序列重疊的平均 ROUGE 分數 (Lin, 2004)。
- rouge_t5 (BigBench): 所有可用 ROUGE 指標的語料庫級 ROUGE 分數。
- faithfulness: 基於 Laban et al. (2022) 的 SummaC 方法的忠實度分數。
- extractiveness: 基於 (Grusky et al., 2018) 的報告
  - summarization_coverage: 模型生成的摘要是源文件中提取片段的程度，
  - summarization_density: 模型生成的摘要是基於源文件的提取式摘要的程度，
  - summarization_compression: 模型生成的摘要相對於源文件的壓縮程度。
- bert_score: 報告模型生成與正確摘要之間的平均 BERTScore 精確率、召回率和 F1 分數 (Zhang et al., 2020)。
翻譯
- bleu: 語料庫級的 BLEU 分數 (Papineni et al., 2002) - 使用 sacrebleu 實現。
- bleu_1: 基於 1-gram 重疊的平均樣本 BLEU 分數 (Papineni et al., 2002) - 使用 nltk 實現。
- bleu_4: 基於 4-gram 重疊的平均樣本 BLEU 分數 (Papineni et al., 2002) - 使用 nltk 實現。
- chrf: 字元 n-gram 匹配 F 分數。
- ter: 翻譯編輯/錯誤率。
版權
- copyright: 報告
  - longest_common_prefix_length: 模型生成與參考之間最長公共字首的平均長度，
  - edit_distance: 模型生成與參考之間的平均 Levenshtein 編輯距離，
  - edit_similarity: 模型生成與參考之間的平均 Levenshtein 編輯相似度（按較長序列的長度歸一化）。
數學
- quasi_exact_match_math: 歸一化後的預測與歸一化後的正確答案匹配的例項比例（為數學問題進行歸一化，移除了 LaTeX 符號、單位等）。
- maj_at_4_math: 多數選擇評估，對預測和正確答案使用數學歸一化。
- quasi_exact_match_gsm8k: 歸一化後的預測與歸一化後的正確答案匹配的例項比例（為 gsm8k 進行歸一化，移除了 LaTeX 符號、單位等）。
- maj_at_8_gsm8k: 多數選擇評估，對預測和正確答案使用 gsm8k 歸一化。

LLM-as-Judge（以大模型為評委）

llm_judge_gpt3p5: 可用於任何生成任務，模型將由一個 GPT3.5 模型使用 OpenAI API 進行評分。
llm_judge_llama_3_405b: 可用於任何生成任務，模型將由一個 Llama 3 405B 模型使用 HuggingFace API 進行評分。
llm_judge_multi_turn_gpt3p5: 可用於任何生成任務，模型將由一個 GPT3.5 模型使用 OpenAI API 進行評分。它用於像 mt-bench 這樣的多輪任務。
llm_judge_multi_turn_llama_3_405b: 可用於任何生成任務，模型將由一個 Llama 3 405B 模型使用 HuggingFace API 進行評分。它用於像 mt-bench 這樣的多輪任務。

< > 在 GitHub 上更新

Lighteval

指標列表

多項選擇任務的自動指標

困惑度和語言建模的自動指標

生成任務的自動指標

LLM-as-Judge（以大模型為評委）