Skip to content
广告 · 本站推荐广告

vLLM 本地部署

vLLM 是一个高性能的 LLM 推理(Inference)引擎,支持 PagedAttention 等优化技术,可以在本地 GPU 上高效运行大模型。

安装 vLLM

pip 安装

bash
pip install vllm

Docker 安装(推荐)

bash
docker run --gpus all -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-14B-Instruct

启动 vLLM 服务

bash
# 启动 OpenAI 兼容的 API 服务
vllm serve Qwen/Qwen2.5-14B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1

常用启动参数

参数说明
--model模型名称或路径
--host监听地址
--port监听端口
--tensor-parallel-sizeGPU 并行数
--max-model-len最大上下文长度
--quantization量化方式(awq, gptq 等)

配置 OpenClaw

vLLM 提供 OpenAI 兼容 API,可以直接作为自定义 OpenAI 提供商使用:

jsonc
// ~/.openclaw/config.json
{
  "models": {
    "providers": {
      "vllm": {
        "baseUrl": "http://localhost:8000/v1",
        "apiKey": "not-needed"
      }
    }
  }
}
bash
openclaw models default set vllm/Qwen/Qwen2.5-14B-Instruct

推荐模型

模型显存需求说明
Qwen/Qwen2.5-7B-Instruct16 GB中文优秀
Qwen/Qwen2.5-14B-Instruct28 GB中文最佳平衡
meta-llama/Llama-3.1-8B-Instruct16 GB通用能力好
deepseek-ai/DeepSeek-V3多 GPU推理能力强

性能优化

量化加速

bash
# AWQ 量化,显存需求降低约 50%
vllm serve Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq

多 GPU 并行

bash
# 使用 2 块 GPU 并行推理
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 2

故障排查

CUDA 内存不足

  • 尝试更小的模型或量化版本
  • 减小 --max-model-len
  • 使用多 GPU 并行

服务启动失败

  • 确认已安装 CUDA 驱动
  • 检查 GPU 是否可用:nvidia-smi
  • 确认模型已下载完成

OpenClaw 无法连接

  • 确认 vLLM 服务正在运行
  • 检查 baseUrl 端口是否正确

🇨🇳 中国用户须知

  • 模型下载:从 Hugging Face 下载模型可能较慢,建议使用镜像站:
    bash
    export HF_ENDPOINT="https://hf-mirror.com"
  • 推荐模型:优先使用 Qwen 2.5 系列,中文能力最优
  • 完全离线:模型下载完成后可断网使用,数据不离开本机
  • 企业级:vLLM 适合对性能有要求的企业级部署场景

基于MIT协议开源 | 内容翻译自 官方文档,同步更新