排行榜文件
使用模板構建排行榜
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
使用模板構建排行榜
要構建一個排行榜,最簡單的方法是檢視我們的演示模板,請訪問這裡
📏 目錄
我們的演示排行榜模板包含4個部分:兩個空間(space)和兩個資料集(dataset)。
frontend space向用戶展示結果,包含有關評估的解釋,並且可以選擇接受模型提交。requests dataset儲存使用者的提交以及模型評估的狀態。它在提交時由前端更新,在執行時由後端更新。results dataset儲存評估的結果。當評估完成時由後端更新,並由前端拉取以供顯示。backend space是可選的,如果您手動執行評估或在自己的叢集上執行。它會檢視當前待處理的提交,並使用Eleuther AI Harness (lm_eval) 或HuggingFace的lighteval啟動它們的評估,然後更新評估狀態並存儲結果。如果您使用更特定的評估套件,則需要根據您的用例進行編輯。
🪛 開始使用
您應該將這兩個空間和這兩個資料集複製到您的組織中,以便開始建立您自己的排行榜!
設定前端
要開始構建您自己的前端排行榜,您需要編輯2個檔案
- src/envs.py 來定義您自己的環境變數(例如,複製到的組織名稱)
- src/about.py 來定義您的任務和您想要為這些任務設定的few-shot數量
設定假結果以初始化排行榜
完成後,您需要編輯“fake results”檔案以適應您的任務格式:在子字典results中,將task_name1和metric_name替換為您在上面任務中定義的正確值。
"results": {
"task_name1": {
"metric_name": 0
}
}在此步驟中,您應該已經在前端看到一些結果顯示了!
您想新增的任何其他模型都需要一個請求檔案和一個結果檔案,遵循與現有檔案相同的模板。
可選:設定後端
如果您計劃在Spaces中執行您的評估,那麼您需要編輯後端以按您想要的方式執行最相關的評估。取決於您想學習的套件,這可能是最耗時的一部分。
但是,如果您只想使用排行榜來顯示結果,或者計劃手動執行評估/在自己的計算資源上執行,這部分是可選的。
🔧 技巧和竅門
以上方式設定的排行榜是可調節的,從提供完全自動化的評估(使用者提交模型,進行評估等)到完全手動(每次新評估都由人工控制)再到半自動。
在Spaces中執行後端時,您可以
- 將您的後端空間升級到您所需的計算能力級別,並在本地執行您的評估(使用
lm_eval、lighteval或您自己的評估套件);這是跨評估型別的最通用解決方案,但它會限制您可用的模型大小,因為您可能無法將最大的模型放入後端 - 使用一種透過API呼叫進行模型推理的套件,例如
lighteval,它使用inference-endpoints從hub自動啟動模型進行評估,從而允許您根據當前模型調整計算規模。
如果您在自己的計算資源上執行評估,您仍然可以從後端提取一些檔案來拉取和推送results和request資料集。
設定好您的排行榜後,請不要忘記設定其元資料,以便我們的排行榜查詢器能夠索引它。您可以在Hub上找到流行的排行榜,以及如何為提交準備排行榜的說明!
在 GitHub 上更新