將 Artificial Analysis LLM 效能排行榜引入 Hugging Face
使用 LLM 構建應用程式不僅要考慮質量:對於許多用例而言,速度和價格同樣重要,甚至更重要。
對於消費者應用程式和聊天體驗,速度和響應能力對使用者參與度至關重要。使用者期望近乎即時的響應,延遲會直接導致參與度降低。當構建涉及工具使用或代理系統的更復雜應用程式時,速度和成本變得更加重要,並且可能成為整個系統能力的限制因素。LLM 順序請求所需的時間會隨著每個使用者請求的增加而迅速累積,從而增加成本。
這就是 Artificial Analysis (@ArtificialAnlys) 開發了一個排行榜的原因,該排行榜評估了 100 多個無伺服器 LLM API 端點的價格、速度和質量,現在該排行榜將引入 Hugging Face。
在此處查詢排行榜:此處!
LLM 效能排行榜
LLM 效能排行榜旨在提供全面的指標,以幫助 AI 工程師決定在 AI 應用程式中使用哪些 LLM(開放模型和專有模型)和 API 提供商。
在決定使用哪些 AI 技術時,工程師需要考慮質量、價格和速度(延遲和吞吐量)。LLM 效能排行榜將這三者結合在一起,以便在一個地方對專有模型和開放模型進行決策。
來源:LLM 效能排行榜
指標覆蓋範圍
報告的指標包括
- 質量:用於比較模型質量和準確性的簡化指標,根據模型作者報告的 MMLU、MT-Bench、HumanEval 分數以及 Chatbot Arena 排名計算得出。
- 上下文視窗:LLM 每次可以處理的最大令牌數(包括輸入和輸出令牌)。
- 定價:提供商對查詢模型進行推理收取的費用。我們報告每令牌的輸入/輸出定價,以及用於比較主機提供商的“混合”定價。我們將輸入和輸出定價按 3:1 的比例混合(即,假設輸入長度是輸出長度的 3 倍)。
- 吞吐量:端點在推理期間輸出令牌的速度,以每秒令牌數(通常稱為 tokens/s 或“TPS”)衡量。我們報告過去 14 天內測量的中位數、P5、P25、P75 和 P95 值。
- 延遲:請求傳送後端點響應所需的時間,稱為首次令牌時間(“TTFT”),以秒為單位測量。我們報告過去 14 天內測量的中位數、P5、P25、P75 和 P95 值。
有關更多定義,請參閱我們的完整方法頁面。
測試工作負載
排行榜允許探索不同工作負載下的效能(總共 6 種組合)
- 更改提示長度:約 100 個令牌、約 1k 個令牌、約 10k 個令牌。
- 執行並行查詢:1 個查詢,10 個並行查詢。
方法
我們每天對排行榜上的每個 API 端點進行 8 次測試,排行榜資料代表過去 14 天的測量中位數。我們還在摺疊選項卡中提供了百分位細分。
質量指標目前按模型收集,並顯示模型建立者報告的結果,但請關注此頁面,我們將開始分享我們對每個端點進行獨立質量評估的結果。
有關更多定義,請參閱我們的完整方法頁面。
亮點(2024 年 5 月,最新資訊請參閱排行榜)
- 過去一年,語言模型市場複雜性爆炸式增長。近兩個月內,震撼市場的釋出包括 Anthropic 的 Claude 3 系列等專有模型,以及 Databricks 的 DBRX、Cohere 的 Command R Plus、Google 的 Gemma、Microsoft 的 Phi-3、Mistral 的 Mixtral 8x22B 和 Meta 的 Llama 3 等開放模型。
- 不同模型和提供商之間的價格和速度差異很大。從 Claude 3 Opus 到 Llama 3 8B,價格差達 300 倍——這超過了兩個數量級!
- API 提供商加快了模型釋出速度。在 48 小時內,有 7 家提供商提供了 Llama 3 模型。這說明了對新的開源模型的需求以及 API 提供商之間的競爭動態。
- 按質量分段突出顯示的關鍵模型
- 高質量,通常價格更高且速度較慢:GPT-4 Turbo 和 Claude 3 Opus
- 中等質量、價格和速度:Llama 3 70B、Mixtral 8x22B、Command R+、Gemini 1.5 Pro、DBRX
- 質量較低,但速度快得多且價格較低:Llama 3 8B、Claude 3 Haiku、Mixtral 8x7B
我們的質量與吞吐量(令牌/秒)圖表顯示了具有不同質量和效能特徵的各種選項。
來源:artificialanalysis.ai/models
用例示例:速度和價格與質量同樣重要
在某些情況下,涉及多個請求的設計模式使用更快更便宜的模型,不僅可以降低成本,還可以提高整體系統質量,這比使用單個更大的模型更好。
例如,考慮一個需要瀏覽網頁以從最新新聞文章中查詢相關資訊的聊天機器人。一種方法是使用像 GPT-4 Turbo 這樣的大型、高質量模型來執行搜尋,然後閱讀和處理前幾篇文章。另一種方法是使用像 Llama 3 8B 這樣更小、更快的模型並行閱讀和提取數十個網頁的亮點,然後使用 GPT-4 Turbo 評估和總結最相關的結果。第二種方法將更具成本效益,即使考慮到閱讀了 10 倍以上的內容,並且可能產生更高質量的結果。
聯絡我們
請在 Twitter 和 LinkedIn 上關注我們以獲取更新。您可以透過上述任一平臺以及我們的網站和電子郵件聯絡我們。