AWS Trainium & Inferentia 文件
Llama-3.3-70b 在 AWS Inferentia2 上的效能(延遲與吞吐量)
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
Llama-3.3-70b 在 AWS Inferentia2 上的效能(延遲與吞吐量)
Llama-3.3-70b 在 Inferentia2 上的速度有多快?讓我們來一探究竟!
本次基準測試將使用以下配置
模型型別 | 批處理大小 | sequence_length |
---|---|---|
Llama3.3 70b BS1 | 1 | 4096 |
Llama3.3 70b BS4 | 4 | 4096 |
Llama3.3 70b BS8 | 8 | 4096 |
注意:所有模型都經過編譯,以使用 inf2.48xlarge
例項上的 12 個裝置,對應 24 個核心。
注意:有關可用例項的詳細資訊,請參閱 inferentia2 產品頁面。
首個 Token 生成時間
首個 Token 生成時間是指處理輸入 Token 並生成第一個輸出 Token 所需的時間。這是一個非常重要的指標,因為它對應於使用者在流式接收生成 Token 時直接感知的延遲。
我們測試了在不斷增加的上下文大小下首個 Token 的生成時間,從典型的問答(Q/A)使用場景到重度的檢索增強生成(RAG)用例。
首個 Token 生成時間以**秒**為單位。
Token 間延遲
Token 間延遲是指生成兩個連續 Token 之間經過的平均時間。
它以**毫秒**為單位。
吞吐量
與其他一些基準測試不同,我們僅使用生成的 Token 來評估吞吐量,方法是將其數量除以端到端延遲。
吞吐量以**詞元/秒(tokens/second)**為單位。