🤗 Evaluate

一個用於輕鬆評估機器學習模型和資料集的庫。

只需一行程式碼，您就可以訪問數十種適用於不同領域（NLP、計算機視覺、強化學習等）的評估方法。無論是在您的本地機器上還是在分散式訓練環境中，您都可以以一致且可復現的方式評估您的模型！

請訪問 🤗 Evaluate 組織頁面，檢視可用的完整指標列表。每個指標都有一個專屬的 Space，其中包含關於如何使用該指標的互動式演示，以及一個詳細說明指標侷限性和用法的文件卡片。

提示： 對於更近期的評估方法，例如評估大語言模型（LLM），我們推薦使用我們更新更積極、維護更活躍的庫 LightEval。

學習基礎知識，熟悉使用 🤗 Evaluate進行載入、計算和儲存。如果您是第一次使用 🤗 Evaluate，請從這裡開始！

幫助您實現特定目標的實用指南。請檢視這些指南，學習如何使用 🤗 Evaluate 解決現實世界的問題。

高層次的解釋，幫助您更好地理解重要主題，例如評估模型或資料集時的注意事項，以及指標、測量和比較之間的區別。

關於 🤗 Evaluate 類和方法如何工作的技術描述。