排行榜文件
引言
並獲得增強的文件體驗
開始使用
引言
🏅 排行榜是什麼?
排行榜是機器學習製品的排名(最常見的是生成模型,但也包括嵌入、分類器等),取決於它們在相關模態的給定任務上的效能。
它們通常用於為特定用例找到最佳模型。
例如,對於大型語言模型,Open LLM 排行榜允許您找到最好的英文基礎預訓練模型,使用了對語言理解、常識和數學進行評估的一系列學術評估;而Chatbot Arena 排行榜則透過使用者對聊天能力的投票,提供了英文最佳聊天模型的排名。
到目前為止,Hub 上我們有文字、影像、影片和音訊生成的排行榜,包括至少 10 種自然(人類)語言的專門排行榜,以及諸如數學或程式碼等一系列能力。我們還有評估更普遍方面(如能源效能或模型安全性)的排行榜。
一些特定的排行榜反映了透過基於人類的投票系統獲得的人類效能,人們在其中比較模型並在給定任務上投票選出更好的模型。這些空間被稱為 競技場。
⚖️ 如何正確使用排行榜
在使用排行榜時,需要注意一些事項。
1. 比較同類項
就像在體育比賽中有體重級別以保持排名公平一樣,在評估模型製品時,您希望比較相似的專案。
例如,在比較模型時,您希望它們在
- 同一重量級別(引數數量):更大的模型通常比小模型表現更好,但執行和訓練它們的成本通常更高(金錢、時間和精力)。
- 相同的數學精度:模型的精度越低,模型就越小、越快,但這會影響效能。
- 同一類別:預訓練模型是很好的通用基礎,而微調模型則更專業,在特定任務上表現更好,合併的模型往往比其實際效能得分更高。
2. 跨越一系列任務進行比較
儘管優秀的通用機器學習模型越來越普遍,但這並不意味著一個 LLM 在下棋方面很厲害,它在創作詩歌方面就一定出色。如果您想為您的用例選擇合適的模型,需要在對其進行測試以確保其符合您的需求之前,考察其在一系列排行榜和任務上的得分和效能。
3. 注意評估侷限性,尤其是對模型而言
許多評估很容易被欺騙,無論是無意還是有意:如果一個模型已經看過用於測試的資料,那麼它的表現會“人為地”很高,反映的是記憶力而不是在任務上的實際能力。這種機制被稱為 汙染。
閉源模型的評估在一段時間後不一定仍然準確:由於閉源模型是基於 API 的,因此無法得知模型隨時間的變化以及在此期間新增或刪除了什麼(與開源模型相反,開源模型的相關資訊是可用的)。因此,您不應假定閉源模型在時間 t 的靜態評估在稍後仍然有效。
在 GitHub 上更新