推理端點(專用)文件

SGLang

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

SGLang

SGLang 是一個用於大型語言模型和視覺語言模型的快速服務框架。它與 TGI 和 vLLM 非常相似,並具有生產就緒功能。

核心功能包括:

  • 快速後端執行時:

    • 透過 RadixAttention 實現高效服務,支援字首快取
    • 零開銷 CPU 排程器
    • 持續批處理、分頁注意力、張量並行和流水線並行
    • 專家並行、結構化輸出、分塊預填充、量化(FP8/INT4/AWQ/GPTQ)和多 LoRA 批處理
  • 廣泛的模型支援:支援各種生成模型(Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和獎勵模型(Skywork),並且易於擴充套件以整合新模型。

配置

sglang

  • 最大執行請求數:併發請求的最大數量
  • 最大預填充令牌數(每批次):在單個預填充操作中可以處理的最大令牌數。這控制了預填充階段的批次大小,並有助於在提示處理期間管理記憶體使用。
  • 分塊預填充大小:設定在預填充階段一次處理多少個令牌。如果提示符長於此值,它將被分成更小的塊並按順序處理,以避免在預填充長提示符時出現記憶體不足錯誤。例如,將 —chunked-prefill-size 設定為 4096 意味著每個塊一次最多處理 4096 個令牌。將其設定為 -1 表示停用分塊預填充。
  • 張量並行大小:用於張量並行的 GPU 數量。這允許模型在多個 GPU 上進行分片,以處理無法在單個 GPU 上容納的更大模型。例如,將其設定為 2 將在 2 個 GPU 上拆分模型。
  • KV 快取 DType:用於在生成過程中儲存鍵值快取的資料型別。選項包括“auto”、“fp8_e5m2”和“fp8_e4m3”。使用較低精度的型別可以減少記憶體使用,但可能會稍微影響生成質量。

對於更高階的配置,您可以將 SGLang 支援的任何伺服器引數作為容器引數傳遞。例如,將 schedule-policy 更改為 lpm 看起來像這樣:

sglang-advanced

支援的模型

SGLang 廣泛支援大型語言模型、多模態語言模型、嵌入模型等。我們建議閱讀 SGLang 文件中的支援的模型部分以獲取完整列表。

在推理端點 UI 中,預設情況下,Hugging Face Hub 上任何帶有 transformers 標籤的模型都可以用 SGLang 部署。這是因為如果 SGLang 沒有自己的模型實現,SGLang 會實現一個回退來使用 transformers。

參考資料

我們還建議閱讀 SGLang 文件以獲取更深入的資訊。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.