AWS Trainium 和 Inferentia

Llama-3.3-70b 在 AWS Inferentia2 上的效能（延遲與吞吐量）

Llama-3.3-70b 在 Inferentia2 上的速度有多快？讓我們來一探究竟！

本次基準測試將使用以下配置

注意：所有模型都經過編譯，以使用 inf2.48xlarge 例項上的 12 個裝置，對應 24 個核心。

注意：有關可用例項的詳細資訊，請參閱 inferentia2 產品頁面。

首個 Token 生成時間

首個 Token 生成時間是指處理輸入 Token 並生成第一個輸出 Token 所需的時間。這是一個非常重要的指標，因為它對應於使用者在流式接收生成 Token 時直接感知的延遲。

我們測試了在不斷增加的上下文大小下首個 Token 的生成時間，從典型的問答（Q/A）使用場景到重度的檢索增強生成（RAG）用例。

首個 Token 生成時間以**秒**為單位。

Llama3.3 70b inferentia2 TTFT

Token 間延遲是指生成兩個連續 Token 之間經過的平均時間。

它以**毫秒**為單位。

Llama3.3 70b inferentia2 inter-token latency

與其他一些基準測試不同，我們僅使用生成的 Token 來評估吞吐量，方法是將其數量除以端到端延遲。

吞吐量以**詞元/秒（tokens/second）**為單位。

Llama3.3 70b inferentia2 throughput