Llama 在 AWS Inferentia2 上的效能（延遲和吞吐量）

Llama 在 Inferentia2 上有多快？讓我們來一探究竟！

本次基準測試將使用 LLama 2 7B 和 13B 模型，採用不同配置。

注意：所有模型均以 2048 的最大序列長度進行編譯。

所有模型都已編譯，以充分利用 `inf2.48xlarge` 例項上可用的所有核心。

注意：有關可用例項的詳細資訊，請參閱 inferentia2 產品頁面。

我們為 `llama2 7B` 和 `llama2 13B` 模型建立了兩種“延遲”配置，它們一次只能處理一個請求，但速度全開；另外兩種“吞吐量”配置可以並行處理多達四個請求。

為了評估模型，我們生成令牌直到總序列長度達到 1024，從 256 個輸入令牌開始（即我們生成 256、512 和 768 個令牌）。

編碼時間（首個令牌生成時間）

編碼時間或首個令牌生成時間是處理輸入令牌並生成第一個輸出令牌所需的時間。這是一個非常重要的指標，因為它對應於使用者在流式傳輸生成令牌時直接感知到的延遲。

我們測試了不同上下文大小的編碼時間，其中 256 個輸入令牌大致對應於典型的問答場景，而 768 個則更典型地用於檢索增強生成 (RAG) 用例。

編碼時間以秒表示。

Llama2 inferentia2 encoding-time

我們可以看到，所有部署的模型都表現出出色的響應時間，即使對於長上下文也是如此。

端到端延遲是指達到 1024 個令牌序列長度所需的時間總量。

因此，它包括編碼時間和生成時間。

延遲以秒表示。

Llama2 inferentia2 end-to-end latency

所有部署在高階例項上的模型都表現出良好的延遲，即使是那些實際配置為最佳化吞吐量的模型也是如此。

我們採用與其他基準測試相同的約定來評估吞吐量，即將端到端延遲除以輸入和輸出令牌的總和。換句話說，我們將端到端延遲除以 `batch_size * sequence_length`，以獲得每秒生成的令牌數。

吞吐量以**令牌/秒（tokens/second）**為單位。

Llama2 inferentia2 throughput

同樣，部署在高階例項上的模型具有非常好的吞吐量，即使是那些為延遲最佳化的模型也是如此。