推理端點(專用)文件
SGLang
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
SGLang
SGLang 是一個用於大型語言模型和視覺語言模型的快速服務框架。它與 TGI 和 vLLM 非常相似,並具有生產就緒功能。
核心功能包括:
快速後端執行時:
- 透過 RadixAttention 實現高效服務,支援字首快取
- 零開銷 CPU 排程器
- 持續批處理、分頁注意力、張量並行和流水線並行
- 專家並行、結構化輸出、分塊預填充、量化(FP8/INT4/AWQ/GPTQ)和多 LoRA 批處理
廣泛的模型支援:支援各種生成模型(Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和獎勵模型(Skywork),並且易於擴充套件以整合新模型。
配置
- 最大執行請求數:併發請求的最大數量
- 最大預填充令牌數(每批次):在單個預填充操作中可以處理的最大令牌數。這控制了預填充階段的批次大小,並有助於在提示處理期間管理記憶體使用。
- 分塊預填充大小:設定在預填充階段一次處理多少個令牌。如果提示符長於此值,它將被分成更小的塊並按順序處理,以避免在預填充長提示符時出現記憶體不足錯誤。例如,將 —chunked-prefill-size 設定為 4096 意味著每個塊一次最多處理 4096 個令牌。將其設定為 -1 表示停用分塊預填充。
- 張量並行大小:用於張量並行的 GPU 數量。這允許模型在多個 GPU 上進行分片,以處理無法在單個 GPU 上容納的更大模型。例如,將其設定為 2 將在 2 個 GPU 上拆分模型。
- KV 快取 DType:用於在生成過程中儲存鍵值快取的資料型別。選項包括“auto”、“fp8_e5m2”和“fp8_e4m3”。使用較低精度的型別可以減少記憶體使用,但可能會稍微影響生成質量。
對於更高階的配置,您可以將 SGLang 支援的任何伺服器引數作為容器引數傳遞。例如,將 schedule-policy
更改為 lpm
看起來像這樣:
支援的模型
SGLang 廣泛支援大型語言模型、多模態語言模型、嵌入模型等。我們建議閱讀 SGLang 文件中的支援的模型部分以獲取完整列表。
在推理端點 UI 中,預設情況下,Hugging Face Hub 上任何帶有 transformers
標籤的模型都可以用 SGLang 部署。這是因為如果 SGLang 沒有自己的模型實現,SGLang 會實現一個回退來使用 transformers。
參考資料
我們還建議閱讀 SGLang 文件以獲取更深入的資訊。
< > 在 GitHub 上更新