Vllm-0.10.1：vllm bench serve参数说明

最新推荐文章于 2026-05-18 15:53:11 发布

原创

最新推荐文章于 2026-05-18 15:53:11 发布 · 3.5k 阅读

收录于

当前文章被以下社区和专栏收录：

一、KVM 虚拟机环境

GPU:4张英伟达A6000(48G)

内存：128G

海光Cpu:128核

大模型：DeepSeek-R1-Distill-Qwen-32B

推理框架Vllm:0.10.1

二、测试命令（random ）

vllm bench serve \
--backend vllm \
--base-url http://127.0.0.1:9400 \
--endpoint /v1/completions \
--dataset-name random \
--model qwen32b \
--tokenizer  /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B \
--seed 12345 \
--random-input-len 2048 \
--random-output-len 2048 \
--num-prompts 16 \
--request-rate 8 \
--metric-percentiles 95,99 \
--trust-remote-code

三、测试结果

和vllm的启动参数关系很大。

详见《Vllm-0.10.1：通过vllm bench serve测试TTFT、TPOT、ITL、E2EL四个指标》。

四、测试参数说明

vllm bench serve --help

4.1、基础配置（Backend & Server）

参数	类型	默认值	说明
--backend	str	"vllm"	指定后端服务类型（如 vllm,openai,openai-chat,openai-audio等）
--base-url	str	None	若使用外部 API（如 OpenAI）或自定义 URL，则指定完整的基础地址如 http://host:port。
--host	str	"127.0.0.1"	本地测试推荐用 127.0.0.1 强制 IPv4，避免 localhost 解析为 IPv6。
--port	int	8000	对接的服务端口，默认为 vLLM 的 8000。
--endpoint	str	"/v1/completions"	API 路径，如 /v1/chat/completions 或 /v1/completions）。

4.1.1、openai和vllm的区别

维度	--backend openai	--backend vllm
协议兼容性	模拟 OpenAI API 协议	使用 vLLM 原生 API 格式
请求格式	发送标准 OpenAI JSON 格式