Lighteval 文件

指標列表

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

指標列表

多項選擇任務的自動指標

這些指標使用不同可能目標(target)的對數似然(log-likelihood)。

  • loglikelihood_acc: 具有最佳對數機率(logprob)的選項是正確選項的例項比例 - 對於選項只包含單個詞元(token)的任務,也存在一個更快的版本 (loglikelihood_acc_single_token)。
  • loglikelihood_acc_norm: 具有最佳對數機率(經序列長度歸一化)的選項是正確選項的例項比例 - 對於選項只包含單個詞元的任務,也存在一個更快的版本 (loglikelihood_acc_norm_single_token)。
  • loglikelihood_acc_norm_nospace: 具有最佳對數機率(經序列長度歸一化)的選項是正確選項的例項比例,忽略第一個空格。
  • loglikelihood_f1: 多項選擇的語料庫級 F1 分數 - 對於選項只包含單個詞元的任務,也存在一個更快的版本 (loglikelihood_f1_single_token)。
  • mcc: 馬修斯相關係數(一種衡量統計分佈之間一致性的指標)。
  • recall_at_1: 具有最佳對數機率的選項是正確選項的例項比例 - 對於每個選項只包含單個詞元的任務,也存在一個更快的版本 (recall_at_1_single_token)。
  • recall_at_2: 具有第二佳或更佳對數機率的選項是正確選項的例項比例 - 對於每個選項只包含單個詞元的任務,也存在一個更快的版本 (recall_at_2_single_token)。
  • mrr: 平均倒數排名(Mean reciprocal rank),一種衡量按正確性/相關性排序的選項排名質量的指標 - 對於選項只包含單個詞元的任務,也存在一個更快的版本 (mrr_single_token)。
  • target_perplexity: 不同可用選項的困惑度。
  • acc_golds_likelihood: 有點不同,它實際檢查的是單個目標的平均對數機率是高於還是低於 0.5。
  • multi_f1_numeric: 多個正確目標(gold target)的對數似然 F1 分數。

所有這些指標也存在“單詞元”版本(loglikelihood_acc_single_token, loglikelihood_acc_norm_single_token, loglikelihood_f1_single_token, mcc_single_token, recall@2_single_tokenmrr_single_token)。當多項選擇選項只比較單個詞元(例如:“A” vs “B” vs “C” vs “D”,或“是” vs “否”)時,使用這些單詞元版本的指標可以將所用時間除以選項的數量。單單詞元評估還包括

  • multi_f1_numeric: 計算所有可能選項的 f1 分數並取平均值。

困惑度和語言建模的自動指標

這些指標使用提示(prompt)的對數似然。

  • word_perplexity: 按序列的詞數加權的困惑度(輸入的對數機率)。
  • byte_perplexity: 按序列的位元組數加權的困惑度(輸入的對數機率)。
  • bits_per_byte: 根據模型機率計算的每位元組平均位元數。
  • log_prob: 預測輸出的平均對數機率(對於語言建模是輸入的對數機率)。

生成任務的自動指標

這些指標需要模型生成一個輸出。因此它們的速度較慢。

  • 基礎版
    • perfect_exact_match: 預測與正確答案(gold)完全匹配的例項比例。
    • exact_match: 預測與正確答案匹配(除了邊界空白字元,即對兩者都應用 strip 後)的例項比例。
    • quasi_exact_match: 歸一化後的預測與歸一化後的正確答案匹配的例項比例(歸一化處理包括空白字元、冠詞、大小寫等)。也存在其他變體,使用不同的歸一化器,例如 quasi_exact_match_triviaqa,它僅在對所有句子應用 strip 後對預測進行歸一化。
    • prefix_exact_match: 預測的開頭部分與正確答案匹配(除了邊界空白字元,即對兩者都應用 strip 後)的例項比例。
    • prefix_quasi_exact_match: 歸一化後的預測開頭部分與歸一化後的正確答案匹配的例項比例(歸一化處理包括空白字元、冠詞、大小寫等)。
    • exact_match_indicator: 移除了某個指示符之前的部分上下文後的精確匹配。
    • f1_score_quasi: 模型輸出與正確答案之間詞語重疊的平均 F1 分數,兩者都先進行歸一化處理。
    • f1_score: 模型輸出與正確答案之間詞語重疊的平均 F1 分數,不進行歸一化處理。
    • f1_score_macro: 語料庫級的宏 F1 分數。
    • f1_score_micro: 語料庫級的微 F1 分數。
    • maj_at_5maj_at_8: 模型多數投票。從模型中獲取 n(5 或 8)個生成結果,並假設最頻繁出現的結果是實際預測。
  • 摘要
    • rouge: 平均 ROUGE 分數 (Lin, 2004)
    • rouge1: 基於 1-gram 重疊的平均 ROUGE 分數 (Lin, 2004)
    • rouge2: 基於 2-gram 重疊的平均 ROUGE 分數 (Lin, 2004)
    • rougeL: 基於最長公共子序列重疊的平均 ROUGE 分數 (Lin, 2004)
    • rougeLsum: 基於最長公共子序列重疊的平均 ROUGE 分數 (Lin, 2004)
    • rouge_t5 (BigBench): 所有可用 ROUGE 指標的語料庫級 ROUGE 分數。
    • faithfulness: 基於 Laban et al. (2022) 的 SummaC 方法的忠實度分數。
    • extractiveness: 基於 (Grusky et al., 2018) 的報告
      • summarization_coverage: 模型生成的摘要是源文件中提取片段的程度,
      • summarization_density: 模型生成的摘要是基於源文件的提取式摘要的程度,
      • summarization_compression: 模型生成的摘要相對於源文件的壓縮程度。
    • bert_score: 報告模型生成與正確摘要之間的平均 BERTScore 精確率、召回率和 F1 分數 (Zhang et al., 2020)
  • 翻譯
    • bleu: 語料庫級的 BLEU 分數 (Papineni et al., 2002) - 使用 sacrebleu 實現。
    • bleu_1: 基於 1-gram 重疊的平均樣本 BLEU 分數 (Papineni et al., 2002) - 使用 nltk 實現。
    • bleu_4: 基於 4-gram 重疊的平均樣本 BLEU 分數 (Papineni et al., 2002) - 使用 nltk 實現。
    • chrf: 字元 n-gram 匹配 F 分數。
    • ter: 翻譯編輯/錯誤率。
  • 版權
    • copyright: 報告
      • longest_common_prefix_length: 模型生成與參考之間最長公共字首的平均長度,
      • edit_distance: 模型生成與參考之間的平均 Levenshtein 編輯距離,
      • edit_similarity: 模型生成與參考之間的平均 Levenshtein 編輯相似度(按較長序列的長度歸一化)。
  • 數學
    • quasi_exact_match_math: 歸一化後的預測與歸一化後的正確答案匹配的例項比例(為數學問題進行歸一化,移除了 LaTeX 符號、單位等)。
    • maj_at_4_math: 多數選擇評估,對預測和正確答案使用數學歸一化。
    • quasi_exact_match_gsm8k: 歸一化後的預測與歸一化後的正確答案匹配的例項比例(為 gsm8k 進行歸一化,移除了 LaTeX 符號、單位等)。
    • maj_at_8_gsm8k: 多數選擇評估,對預測和正確答案使用 gsm8k 歸一化。

LLM-as-Judge(以大模型為評委)

  • llm_judge_gpt3p5: 可用於任何生成任務,模型將由一個 GPT3.5 模型使用 OpenAI API 進行評分。
  • llm_judge_llama_3_405b: 可用於任何生成任務,模型將由一個 Llama 3 405B 模型使用 HuggingFace API 進行評分。
  • llm_judge_multi_turn_gpt3p5: 可用於任何生成任務,模型將由一個 GPT3.5 模型使用 OpenAI API 進行評分。它用於像 mt-bench 這樣的多輪任務。
  • llm_judge_multi_turn_llama_3_405b: 可用於任何生成任務,模型將由一個 Llama 3 405B 模型使用 HuggingFace API 進行評分。它用於像 mt-bench 這樣的多輪任務。
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.