optimum-tpu

Jetstream Pytorch 和 PyTorch XLA 之間的區別

本指南向 optimum-tpu 使用者解釋 Jetstream Pytorch 和 PyTorch XLA 之間的區別，因為它們是 TGI 中可用的兩種後端。

JetStream PyTorch 是一個基於 PyTorch XLA 構建的高效能推理引擎。它在 TPU 上執行大型語言模型 (LLM) 時針對吞吐量和記憶體效率進行了最佳化。

注意：預設情況下，optimum-tpu 使用 PyTorch XLA 進行訓練，使用 Jetstream Pytorch 進行服務。

您可以配置 optimum-tpu 以使用任一版本進行 TGI 服務。您可以透過在 docker 執行引數中設定 -e JETSTREAM_PT_DISABLE=1 來在 TGI 中使用 Pytorch XLA 後端。

您可以找到更多關於以下內容的資訊