🤗 Evaluate 中的評估型別

🤗 Evaluate 庫的目標是根據不同的目標、資料集和模型支援不同型別的評估。

以下是當前支援的評估型別，並附有每個型別的一些示例

指標

指標衡量模型在給定資料集上的效能。這通常基於現有參考（即一組參考），但也有 無參考指標，它們允許透過利用預訓練模型（例如 GPT-2）來評估生成的文字。

指標示例包括

指標通常用於跟蹤模型在基準資料集上的效能，並報告諸如機器翻譯和影像分類等任務的進展。

比較對於在單個測試資料集上比較兩個或多個模型的效能非常有用。

例如，McNemar 檢驗是一種配對非引數統計假設檢驗，它比較兩個模型的預測，旨在衡量模型的預測是否不同。它輸出的 p 值範圍從 0.0 到 1.0，表示兩個模型預測之間的差異，p 值越低表示差異越顯著。

比較尚未在比較和報告模型效能時系統地使用，然而它們是超越簡單比較排行榜分數並獲得模型預測差異更多資訊的有用工具。

在 🤗 Evaluate 庫中，測量是用於獲取資料集和模型預測更多洞察的工具。

例如，對於資料集，計算資料集條目的平均詞長及其分佈情況可能很有用——這有助於為 Tokenizer 選擇最大輸入長度。

對於模型預測，計算使用不同模型（如 GPT-2 和 BERT）的模型預測的平均困惑度可能很有用，這可以在沒有參考可用的情況下指示生成文字的質量。

🤗 Evaluate 庫支援的所有三種評估型別旨在相互補充，並幫助我們的社群進行更細緻和負責任的評估。

我們將在未來幾個月繼續新增更多型別的指標、測量和比較，並期待社群的參與（透過 PRs 和 issues）使該庫儘可能廣泛和包容！