排行榜文件

使用模板構建排行榜

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

使用模板構建排行榜

要構建一個排行榜,最簡單的方法是檢視我們的演示模板,請訪問這裡

📏 目錄

我們的演示排行榜模板包含4個部分:兩個空間(space)和兩個資料集(dataset)。

  • frontend space向用戶展示結果,包含有關評估的解釋,並且可以選擇接受模型提交。
  • requests dataset儲存使用者的提交以及模型評估的狀態。它在提交時由前端更新,在執行時由後端更新。
  • results dataset儲存評估的結果。當評估完成時由後端更新,並由前端拉取以供顯示。
  • backend space是可選的,如果您手動執行評估或在自己的叢集上執行。它會檢視當前待處理的提交,並使用Eleuther AI Harness (lm_eval) 或HuggingFace的lighteval啟動它們的評估,然後更新評估狀態並存儲結果。如果您使用更特定的評估套件,則需要根據您的用例進行編輯。

🪛 開始使用

您應該將這兩個空間和這兩個資料集複製到您的組織中,以便開始建立您自己的排行榜!

設定前端

要開始構建您自己的前端排行榜,您需要編輯2個檔案

  • src/envs.py 來定義您自己的環境變數(例如,複製到的組織名稱)
  • src/about.py 來定義您的任務和您想要為這些任務設定的few-shot數量

設定假結果以初始化排行榜

完成後,您需要編輯“fake results”檔案以適應您的任務格式:在子字典results中,將task_name1和metric_name替換為您在上面任務中定義的正確值。

"results": {
    "task_name1": {
        "metric_name": 0
    }
}

在此步驟中,您應該已經在前端看到一些結果顯示了!

您想新增的任何其他模型都需要一個請求檔案和一個結果檔案,遵循與現有檔案相同的模板。

可選:設定後端

如果您計劃在Spaces中執行您的評估,那麼您需要編輯後端以按您想要的方式執行最相關的評估。取決於您想學習的套件,這可能是最耗時的一部分。

但是,如果您只想使用排行榜來顯示結果,或者計劃手動執行評估/在自己的計算資源上執行,這部分是可選的。

🔧 技巧和竅門

以上方式設定的排行榜是可調節的,從提供完全自動化的評估(使用者提交模型,進行評估等)到完全手動(每次新評估都由人工控制)再到半自動。

在Spaces中執行後端時,您可以

  • 將您的後端空間升級到您所需的計算能力級別,並在本地執行您的評估(使用lm_evallighteval或您自己的評估套件);這是跨評估型別的最通用解決方案,但它會限制您可用的模型大小,因為您可能無法將最大的模型放入後端
  • 使用一種透過API呼叫進行模型推理的套件,例如lighteval,它使用inference-endpoints從hub自動啟動模型進行評估,從而允許您根據當前模型調整計算規模。

如果您在自己的計算資源上執行評估,您仍然可以從後端提取一些檔案來拉取和推送resultsrequest資料集。

設定好您的排行榜後,請不要忘記設定其元資料,以便我們的排行榜查詢器能夠索引它。您可以在Hub上找到流行的排行榜,以及如何為提交準備排行榜的說明!

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.