常見問題

提交

問：你們會記錄模型提交者的資訊嗎？

答：是的，我們會將每個模型的提交者使用者資訊儲存在此處的請求檔案中。這有助於我們防止垃圾提交併鼓勵負責任的提交行為。使用者需要對自己的提交負責，因為社群可以識別出每個模型的提交者。

問：我可以提交需要設定 `trust_remote_code=True` 的模型嗎？

答：我們只接受已整合到 `transformers` 庫穩定版本的模型，以確保在我們叢集上執行的程式碼的安全性和穩定性。

問：支援 X 型別的模型嗎？

答：目前，提交僅限於已包含在 transformers 庫穩定版本中的模型。

問：我可以用聊天模板來評估我的模型嗎？

答：當然可以！提交模型時，您可以選擇是否使用聊天模板進行評估，該功能對聊天模型會自動啟用。

問：如何跟蹤我的模型提交狀態？

答：您可以透過檢視此處的請求檔案或檢視提交表單上方的佇列來監控您的模型狀態。

問：如果我的模型從所有佇列中消失了怎麼辦？

答：模型消失通常表示評估失敗。您可以在此處的請求資料集中找到您的模型並檢查其狀態。

問：導致評估失敗的原因是什麼？

答：失敗通常源於提交問題，例如檔案損壞或配置錯誤。請在提交前查閱“關於”選項卡中的步驟。偶爾，失敗也可能是由於我們這邊的硬體或連線問題造成的。

問：我該如何報告評估失敗？

答：請在社群版塊中建立一個 issue，並附上您模型的請求檔案連結，以便我們進一步調查。如果錯誤在我們這邊，我們會立即重新啟動您的模型評估。

請勿以不同名稱重新上傳您的模型，因為這無法解決問題。

結果

問：關於我的模型評估結果，有哪些可用資訊？

答：對於每個模型，您可以訪問：

請求檔案：評估的狀態。
內容資料集： 包含所有已評估模型資訊的完整資料集。可在此處檢視。
詳情資料集：分數的詳細分解和任務示例。您可以在此處檢視所有的詳情資料集。

問：為什麼有些模型在排行榜上多次出現？

答：模型可能由於在不同的 commit 或精度設定（如 `float16` 和 `4bit`）下提交而多次出現。您可以透過點選主頁上“列可見性”部分下的 `精度` 按鈕來檢視。對於評估，精度有助於評估量化的影響。

如果發現精度和 commit 完全相同的重複項，請報告。

問：什麼是模型標記 (flagging)？

答：標記功能有助於報告在排行榜上表現不公平的模型。例如，在評估資料上訓練過的模型、未經適當署名的其他模型的副本等。

如果您的模型被錯誤標記，您可以在此處發起討論為自己辯護。

搜尋模型

問：如何在排行榜中搜索模型？

答：搜尋欄提供了強大的篩選功能，幷包含多項高階特性：

多詞條搜尋

組合搜尋：使用分號（;）來組合多個獨立的搜尋詞條。
結果疊加：分號後的每個詞條會將結果新增到前一個搜尋的結果中，建立結果的並集而非交集篩選。

示例：`llama; 7b` 會找到包含“llama”或包含“7b”的模型。

特定欄位搜尋

使用 `@` 字首來指定特定欄位：

`@architecture:` - 按模型架構搜尋。
`@license:` - 按許可證型別篩選。
`@precision:` - 按模型精度篩選。

示例：`@architecture:llama @license:apache` 會找到具有 Apache 許可證的 Llama 模型。

支援正則表示式

高階模式匹配：支援正則表示式，以實現靈活的搜尋條件。
自動檢測：當使用特殊正則表示式字元時，會自動啟用正則模式。

示例：`llama-2-(7|13|70)b` 會匹配 `llama-2-7b`、`llama-2-13b` 和 `llama-2-70b`。

組合搜尋

組合併疊加所有功能以獲得精確結果：

示例：`meta @architecture:llama; 7b @license:apache` 將會找到：

包含“meta”且架構為 Llama 的模型，或
包含“7b”且具有 Apache 許可證的模型。

即時結果

動態更新：搜尋是即時執行的，並帶有防抖動功能以保證流暢效能。
高亮顯示：結果會在表格中進行視覺強調，以便於識別。

編輯提交

問：如何更新或重新命名我提交的模型？

答：要更新，請在 issue 中提供您模型的準確名稱以從排行榜中移除，然後使用新的 commit 雜湊重新提交。要重新命名，請檢視社群資源頁面，並使用 @Weyaxi 的工具請求更改，然後在討論中連結該 pull request 以獲得批准。

附加資訊

問：“僅限官方提供商”按鈕有什麼作用？

答：此按鈕用於篩選和顯示來自一份精選的可信賴和高質量模型提供商列表中的模型。我們引入此功能是為了幫助使用者輕鬆識別和選擇頂級模型。目前的可信賴作者名單包括 EleutherAI、CohereForAI、MistralAI 等眾多知名機構。該資料集可在此處檢視。

問：如何檢視每次評估的原始分數？

答：排行榜預設顯示歸一化分數以提供公平的比較。歸一化會調整分數，使下限對應於隨機基線的分數，從而確保更公平的平均值。要檢視未歸一化的值，請前往“表格選項”中的“分數顯示”，然後點選“原始”。

問：模型類別是如何區分的？

答：類別的定義旨在反映應用於每個模型的具體訓練階段和方法，以確保比較既公平又有意義。以下是每個類別的細分：

預訓練模型： 這些基礎模型最初在大型資料集上進行訓練，沒有針對特定任務進行調整，可作為進一步開發的通用基礎。
持續預訓練模型： 這些模型在初步預訓練之後會進行額外的訓練以增強其能力，通常使用更專業的資料。
微調模型： 這些模型在特定資料集上進行專門調整，針對特定任務進行最佳化，從而在這些領域提高效能。
聊天模型： 專為聊天機器人等互動式應用量身定製，這些模型經過訓練，能有效處理對話上下文。
合併模型： 結合多個模型或方法，這些模型可能在測試中表現出色，但並不總適用於現實世界的情況。

問：排行榜的預期用途是什麼？

答：該排行榜非常適合用於：

檢視開放預訓練模型的排名和分數。
試驗各種微調和量化技術。
比較特定模型在其類別內的效能。

問：為什麼你們不收錄閉源模型？

答：排行榜專注於開源模型，以確保透明度、可復現性和公平性。閉源模型的 API 可能會不可預測地改變，使得難以保證評分的一致性和準確性。此外，我們在自己的叢集上重新執行所有評估，以維持統一的測試環境，這對於閉源模型是無法做到的。

問：我還有其他問題，求助！

答：請在討論區開一個 issue，我們會盡力及時幫助您。

< > 在 GitHub 上更新