optimum-tpu 文件

Jetstream Pytorch 和 PyTorch XLA 之間的區別

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Jetstream Pytorch 和 PyTorch XLA 之間的區別

本指南向 optimum-tpu 使用者解釋 Jetstream Pytorch 和 PyTorch XLA 之間的區別,因為它們是 TGI 中可用的兩種後端。

JetStream PyTorch 是一個基於 PyTorch XLA 構建的高效能推理引擎。它在 TPU 上執行大型語言模型 (LLM) 時針對吞吐量和記憶體效率進行了最佳化。

特性 Jetstream Pytorch PyTorch XLA
訓練
服務
效能 更高的服務效能 標準效能
靈活性 僅限於服務 完整的 PyTorch 生態系統
用例 生產推理 開發和訓練
整合 針對部署最佳化 標準 PyTorch 工作流程

注意:預設情況下,optimum-tpu 使用 PyTorch XLA 進行訓練,使用 Jetstream Pytorch 進行服務。

您可以配置 optimum-tpu 以使用任一版本進行 TGI 服務。您可以透過在 docker 執行引數中設定 -e JETSTREAM_PT_DISABLE=1 來在 TGI 中使用 Pytorch XLA 後端。

您可以找到更多關於以下內容的資訊

© . This site is unofficial and not affiliated with Hugging Face, Inc.