SGLang

SGLang 是一個用於大型語言模型和視覺語言模型的快速服務框架。它與 TGI 和 vLLM 非常相似，並具有生產就緒功能。

核心功能包括：

快速後端執行時:
- 透過 RadixAttention 實現高效服務，支援字首快取
- 零開銷 CPU 排程器
- 持續批處理、分頁注意力、張量並行和流水線並行
- 專家並行、結構化輸出、分塊預填充、量化（FP8/INT4/AWQ/GPTQ）和多 LoRA 批處理
廣泛的模型支援：支援各種生成模型（Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等）、嵌入模型（e5-mistral、gte、mcdse）和獎勵模型（Skywork），並且易於擴充套件以整合新模型。

配置

sglang

最大執行請求數：併發請求的最大數量
最大預填充令牌數（每批次）：在單個預填充操作中可以處理的最大令牌數。這控制了預填充階段的批次大小，並有助於在提示處理期間管理記憶體使用。
分塊預填充大小：設定在預填充階段一次處理多少個令牌。如果提示符長於此值，它將被分成更小的塊並按順序處理，以避免在預填充長提示符時出現記憶體不足錯誤。例如，將 —chunked-prefill-size 設定為 4096 意味著每個塊一次最多處理 4096 個令牌。將其設定為 -1 表示停用分塊預填充。
張量並行大小：用於張量並行的 GPU 數量。這允許模型在多個 GPU 上進行分片，以處理無法在單個 GPU 上容納的更大模型。例如，將其設定為 2 將在 2 個 GPU 上拆分模型。
KV 快取 DType：用於在生成過程中儲存鍵值快取的資料型別。選項包括“auto”、“fp8_e5m2”和“fp8_e4m3”。使用較低精度的型別可以減少記憶體使用，但可能會稍微影響生成質量。

對於更高階的配置，您可以將 SGLang 支援的任何伺服器引數作為容器引數傳遞。例如，將 schedule-policy 更改為 lpm 看起來像這樣：

sglang-advanced

SGLang 廣泛支援大型語言模型、多模態語言模型、嵌入模型等。我們建議閱讀 SGLang 文件中的支援的模型部分以獲取完整列表。

在推理端點 UI 中，預設情況下，Hugging Face Hub 上任何帶有 transformers 標籤的模型都可以用 SGLang 部署。這是因為如果 SGLang 沒有自己的模型實現，SGLang 會實現一個回退來使用 transformers。

我們還建議閱讀 SGLang 文件以獲取更深入的資訊。