Lighteval 文件
使用 SGLang 作為後端
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
使用 SGLang 作為後端
Lighteval 允許您使用 sglang
作為後端,從而極大地提高速度。要使用它,只需更改 model_args
以反映您想要傳遞給 sglang 的引數。
lighteval sglang \
"model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16" \
"leaderboard|truthfulqa:mc|0|0"
sglang
能夠使用資料並行和張量並行將模型分佈在多個 GPU 上。您可以在 model_args
中設定來選擇並行方法。
例如,如果您有 4 個 GPU,您可以使用 tp_size
將其拆分
lighteval sglang \
"model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,tp_size=4" \
"leaderboard|truthfulqa:mc|0|0"
或者,如果您的模型適合單個 GPU,您可以使用 dp_size
來加速評估
lighteval sglang \
"model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,dp_size=4" \
"leaderboard|truthfulqa:mc|0|0"
使用配置檔案
對於更高階的配置,您可以使用模型的配置檔案。配置檔案的示例顯示如下,可在 examples/model_configs/sglang_model_config.yaml
中找到。
lighteval sglang \
"examples/model_configs/sglang_model_config.yaml" \
"leaderboard|truthfulqa:mc|0|0"
sglang 的配置檔案文件可以在這裡找到。
model_parameters:
model_name: "HuggingFaceTB/SmolLM-1.7B-Instruct"
dtype: "auto"
tp_size: 1
dp_size: 1
context_length: null
random_seed: 1
trust_remote_code: False
use_chat_template: False
device: "cuda"
skip_tokenizer_init: False
kv_cache_dtype: "auto"
add_special_tokens: True
pairwise_tokenization: False
sampling_backend: null
attention_backend: null
mem_fraction_static: 0.8
chunked_prefill_size: 4096
generation_parameters:
max_new_tokens: 1024
min_new_tokens: 0
temperature: 1.0
top_k: 50
min_p: 0.0
top_p: 1.0
presence_penalty: 0.0
repetition_penalty: 1.0
frequency_penalty: 0.0
如果出現 OOM(記憶體不足)問題,您可能需要減小模型的上下文大小,並減小 mem_fraction_static
和 chunked_prefill_size
引數。