排行榜文件
常見問題
並獲得增強的文件體驗
開始使用
常見問題
提交
問:你們是否記錄誰提交了模型?
答:是的,我們在請求檔案中儲存了有關哪個使用者提交了每個模型的資訊。這有助於我們防止垃圾資訊並鼓勵負責任的提交。使用者對其提交的內容負責,因為社群可以識別出每個模型的提交者。
問:我能否提交一個需要 trust_remote_code=True 的模型?
答:為了確保我們在叢集上執行程式碼的安全性與穩定性,我們僅接受已整合到 transformers 庫穩定版本中的模型。
問:是否支援 X 型別的模型?
答:目前,提交僅限於包含在 transformers 庫穩定版本中的模型。
問:我能否使用聊天模板來評估我的模型?
答:當然!在提交模型時,您可以選擇是否使用聊天模板進行評估,該模板會自動為聊天模型啟用。
問:我如何跟蹤我的模型提交狀態?
答:您可以透過檢視 此處的請求檔案 或檢視提交表單上方的佇列來監控您的模型狀態。
問:如果我的模型從所有佇列中消失了會怎樣?
答:模型的消失通常表示失敗。您可以在 此處的請求資料集 中找到您的模型並檢查其狀態。
問:什麼原因會導致評估失敗?
答:失敗通常源於提交問題,例如檔案損壞或配置錯誤。在提交前,請仔細閱讀“關於”選項卡中的步驟。偶爾,失敗是由於我們方面的硬體或連線問題。
問:如何報告評估失敗?
答:請在 社群版塊 建立一個 issue,並附上您的模型請求檔案以供進一步調查。如果錯誤在我們這邊,我們將盡快重新執行您的模型。
請勿使用不同名稱重新上傳您的模型,這並不能解決問題。
結果
問:關於我的模型的評估結果有哪些資訊可供查詢?
答:對於每個模型,您可以訪問:
問:為什麼有些模型會在排行榜上出現多次?
答:模型可能會因為在不同 commit 或精度設定(例如 float16 和 4bit)下提交而出現多次。您可以透過點選主頁面“列可見性”下的“精度”按鈕來檢視。精度有助於評估量化對評估的影響。
具有相同精度和 commit 的重複項應被舉報。
問:什麼是模型標記?
答:標記有助於舉報在排行榜上表現不公平的模型。例如,在評估資料上訓練的模型、未正確歸屬的其他模型副本等。
如果您的模型被錯誤地標記,您可以在 此處 開設一個討論,為自己辯護。
搜尋模型
問:如何在排行榜中搜索模型?
答:搜尋欄提供了強大的過濾功能,包含多種高階特性。
多詞搜尋
- 組合搜尋:使用分號 (;) 組合多個獨立的搜尋詞。
- 堆疊結果:分號後的每個詞都會將結果新增到之前的搜尋中,建立結果的並集,而不是交集過濾。
示例:llama; 7b 將查詢包含“llama”或包含“7b”的模型。
欄位搜尋
使用 @ 字首來定位特定欄位。
@architecture:- 按模型架構搜尋。@license:- 按許可證型別過濾。@precision:- 按模型精度過濾。
示例:@architecture:llama @license:apache 將查詢具有 Apache 許可證的 Llama 模型。
正則表示式支援
- 高階模式匹配:支援正則表示式,提供靈活的搜尋條件。
- 自動檢測:當使用特殊正則表示式字元時,會自動啟用正則表示式模式。
示例:llama-2-(7|13|70)b 匹配 llama-2-7b、llama-2-13b 和 llama-2-70b。
組合搜尋
- 組合並堆疊所有功能以獲得精確結果。
示例:meta @architecture:llama; 7b @license:apache 將查詢:
- 包含“meta”且具有 Llama 架構的模型,或者
- 包含“7b”且具有 Apache 許可證的模型。
即時結果
- 動態更新:搜尋即時進行,並帶有去抖動以實現流暢效能。
- 高亮顯示:結果在表格中以視覺方式突出顯示,便於識別。
編輯提交
問:如何更新或重新命名我提交的模型?
答:要進行更新,請提交一個 issue,包含要從排行榜中移除的模型的確切名稱,然後再使用新的 commit hash 重新提交。要重新命名,請檢視 社群資源 頁面,並使用 @Weyaxi 的工具請求更改,然後在討論中附上 pull request 以便批准。
附加資訊
問:“僅官方提供商”按鈕有什麼作用?
答:此按鈕用於過濾並顯示來自精選的信任且高質量模型提供商列表中的模型。我們推出此功能是為了幫助使用者輕鬆識別和選擇頂級模型。當前受信任的作者包括 EleutherAI、CohereForAI、MistralAI 等知名公司。資料集可在此 處 獲取。
問:如何檢視每次評估的原始分數?
答:排行榜預設顯示標準化分數,以提供公平的比較。標準化分數會進行調整,使下限對應隨機基線的得分,從而確保更公平的平均值。要檢視非標準化值,請轉到“表格選項”、“分數顯示”,然後點選“原始”。
問:模型類別是如何區分的?
答:類別是為了反映應用於每個模型的具體訓練階段和方法而定義的,以確保比較既公平又有意義。以下是每個類別的細分:
- 預訓練模型:這些基礎模型最初在大型資料集上進行訓練,沒有進行特定任務的調整,可作為進一步開發的通用基礎。
- 持續預訓練模型:這些模型在初始預訓練後會進行額外的訓練以增強其能力,通常使用更專業的資料。
- 微調模型:這些模型經過在特定資料集上的調整,針對特定任務進行了最佳化,提高了在這些領域的效能。
- 聊天模型:這些模型專為聊天機器人等互動式應用程式而設計,經過訓練可有效處理對話上下文。
- 合併模型:透過組合多個模型或方法,這些模型可能顯示出優越的測試結果,但並不總是適用於現實情況。
問:排行榜的預期用途是什麼?
答:排行榜非常適合:
- 檢視開放預訓練模型的排名和分數。
- 試驗各種微調和量化技術。
- 比較特定模型在其類別內的效能。
問:為什麼你們沒有閉源模型?
答:排行榜專注於開源模型,以確保透明度、可復現性和公平性。閉源模型可能會不可預測地更改其 API,從而難以保證一致且準確的評分。此外,我們會在叢集上重新執行所有評估以維護統一的測試環境,這對於閉源模型來說是不可能的。
問:我還有其他問題,請幫忙!
答:請在討論選項卡中建立一個 issue,我們將盡快盡力為您提供幫助。
在 GitHub 上更新