vLLM 本地部署

vLLM 是一个高性能的 LLM 推理（Inference）引擎，支持 PagedAttention 等优化技术，可以在本地 GPU 上高效运行大模型。

安装 vLLM

pip 安装

bash

pip install vllm

Docker 安装（推荐）

bash

docker run --gpus all -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-14B-Instruct

启动 vLLM 服务

bash

# 启动 OpenAI 兼容的 API 服务
vllm serve Qwen/Qwen2.5-14B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1

常用启动参数

参数	说明
`--model`	模型名称或路径
`--host`	监听地址
`--port`	监听端口
`--tensor-parallel-size`	GPU 并行数
`--max-model-len`	最大上下文长度
`--quantization`	量化方式（awq, gptq 等）

配置 OpenClaw

vLLM 提供 OpenAI 兼容 API，可以直接作为自定义 OpenAI 提供商使用：

jsonc

// ~/.openclaw/config.json
{
  "models": {
    "providers": {
      "vllm": {
        "baseUrl": "http://localhost:8000/v1",
        "apiKey": "not-needed"
      }
    }
  }
}

bash

openclaw models default set vllm/Qwen/Qwen2.5-14B-Instruct

模型	显存需求	说明
`Qwen/Qwen2.5-7B-Instruct`	16 GB	中文优秀
`Qwen/Qwen2.5-14B-Instruct`	28 GB	中文最佳平衡
`meta-llama/Llama-3.1-8B-Instruct`	16 GB	通用能力好
`deepseek-ai/DeepSeek-V3`	多 GPU	推理能力强

性能优化

量化加速

bash

# AWQ 量化，显存需求降低约 50%
vllm serve Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq

多 GPU 并行

bash

# 使用 2 块 GPU 并行推理
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 2

故障排查

CUDA 内存不足

尝试更小的模型或量化版本
减小 --max-model-len
使用多 GPU 并行

服务启动失败

确认已安装 CUDA 驱动
检查 GPU 是否可用：nvidia-smi
确认模型已下载完成

OpenClaw 无法连接

确认 vLLM 服务正在运行
检查 baseUrl 端口是否正确

🇨🇳 中国用户须知

模型下载：从 Hugging Face 下载模型可能较慢，建议使用镜像站：
bash
```
export HF_ENDPOINT="https://hf-mirror.com"
```
1
推荐模型：优先使用 Qwen 2.5 系列，中文能力最优
完全离线：模型下载完成后可断网使用，数据不离开本机
企业级：vLLM 适合对性能有要求的企业级部署场景

vLLM 本地部署 ​

安装 vLLM ​

pip 安装 ​

Docker 安装（推荐） ​

启动 vLLM 服务 ​

常用启动参数 ​

配置 OpenClaw ​

推荐模型 ​

性能优化 ​

量化加速 ​

多 GPU 并行 ​

故障排查 ​

CUDA 内存不足 ​

服务启动失败 ​

OpenClaw 无法连接 ​

vLLM 本地部署

安装 vLLM

pip 安装

Docker 安装（推荐）

启动 vLLM 服务

常用启动参数

配置 OpenClaw

推荐模型

性能优化

量化加速

多 GPU 并行

故障排查

CUDA 内存不足

服务启动失败

OpenClaw 无法连接