AWS Trainium 和 Inferentia

Llama-3.1-8b 在 AWS Inferentia2 上的效能（延遲和吞吐量）

Llama-3.1-8b 在 Inferentia2 上執行速度有多快？讓我們一探究竟！

本次基準測試中，我們將使用以下配置：

注意：所有模型都編譯為在 inf2.48xlarge 例項上使用 4 個裝置，對應 8 個核心。

注意：有關可用例項的詳細資訊，請參閱 inferentia2 產品頁面。

首個 Token 生成時間

首個 Token 生成時間是指處理輸入 Token 並生成第一個輸出 Token 所需的時間。這是一個非常重要的指標，因為它直接對應於使用者在流式生成 Token 時所感知的延遲。

我們測試了在上下文大小不斷增加的情況下的首個 Token 生成時間，從典型的問答（Q/A）使用場景，到重度的檢索增強生成（RAG）用例。

首個 Token 生成時間以**秒**為單位。

Llama3.1 8b inferentia2 TTFT

Token 間延遲是指生成兩個連續 Token 之間的平均時間。

它以**毫秒**為單位。

Llama3.1 8b inferentia2 inter-token latency

與其他一些基準測試不同，我們僅使用生成的 Token 來評估吞吐量，方法是將它們的數量除以端到端延遲。

吞吐量以**令牌/秒（tokens/second）**為單位。

Llama3.1 8b inferentia2 throughput