AWS Trainium & Inferentia 文件
Llama-3.1-8b 在 AWS Inferentia2 上的效能(延遲和吞吐量)
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
Llama-3.1-8b 在 AWS Inferentia2 上的效能(延遲和吞吐量)
Llama-3.1-8b 在 Inferentia2 上執行速度有多快?讓我們一探究竟!
本次基準測試中,我們將使用以下配置:
模型型別 | 批處理大小 | 序列長度 |
---|---|---|
Llama3.1 8b BS1 | 1 | 4096 |
Llama3.1 8b BS4 | 4 | 4096 |
Llama3.1 8b BS8 | 8 | 4096 |
Llama3.1 8b BS16 | 16 | 4096 |
Llama3.1 8b BS32 | 32 | 4096 |
Llama3.1 8b BS48 | 48 | 4096 |
注意:所有模型都編譯為在 inf2.48xlarge
例項上使用 4 個裝置,對應 8 個核心。
注意:有關可用例項的詳細資訊,請參閱 inferentia2 產品頁面。
首個 Token 生成時間
首個 Token 生成時間是指處理輸入 Token 並生成第一個輸出 Token 所需的時間。這是一個非常重要的指標,因為它直接對應於使用者在流式生成 Token 時所感知的延遲。
我們測試了在上下文大小不斷增加的情況下的首個 Token 生成時間,從典型的問答(Q/A)使用場景,到重度的檢索增強生成(RAG)用例。
首個 Token 生成時間以**秒**為單位。
Token 間延遲
Token 間延遲是指生成兩個連續 Token 之間的平均時間。
它以**毫秒**為單位。
吞吐量
與其他一些基準測試不同,我們僅使用生成的 Token 來評估吞吐量,方法是將它們的數量除以端到端延遲。
吞吐量以**令牌/秒(tokens/second)**為單位。