Skip to content
广告 · 本站推荐广告

Ollama(本地模型)

Ollama 是一款开源的本地模型运行工具,可以在你的电脑上一键运行各种开源大模型。数据完全在本地处理,无需网络连接,非常适合注重隐私或离线使用的场景。

安装 Ollama

macOS / Linux

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows

前往 Ollama 官网 下载 Windows 安装包并运行。

验证安装

bash
ollama --version

拉取模型

安装 Ollama 后,需要先下载(拉取)模型:

bash
# 推荐:通义千问 2.5(中文表现优秀)
ollama pull qwen2.5:14b

# DeepSeek V3(强大的开源推理模型)
ollama pull deepseek-v3

# Llama 3(Meta 开源模型)
ollama pull llama3:8b

# 查看已下载的模型
ollama list

配置 OpenClaw

jsonc
// ~/.openclaw/config.json
{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://localhost:11434"
      }
    }
  }
}

认证配置(Ollama 默认无需认证):

bash
openclaw models auth login --provider ollama
openclaw models default set ollama/qwen2.5:14b

推荐模型

以下是适合中文用户的本地模型推荐:

模型拉取命令说明
Qwen 2.5 7Bollama pull qwen2.5:7b中文能力优秀,资源需求低
Qwen 2.5 14Bollama pull qwen2.5:14b中文最佳平衡选择
Qwen 2.5 32Bollama pull qwen2.5:32b中文深度理解
DeepSeek V3ollama pull deepseek-v3推理能力强
Llama 3 8Bollama pull llama3:8b通用能力好
Llama 3 70Bollama pull llama3:70b接近 GPT-4 水平
CodeLlama 13Bollama pull codellama:13b编程专用

硬件要求

模型参数量最低显存(VRAM)推荐显存最低内存(RAM)
3B2 GB4 GB8 GB
7B4 GB8 GB16 GB
14B8 GB12 GB24 GB
32B16 GB24 GB32 GB
70B36 GB48 GB64 GB

说明

  • 如果没有独立显卡,Ollama 会自动使用 CPU 推理(速度较慢)
  • Apple Silicon(M1/M2/M3/M4)的统一内存可同时用于显存和内存
  • 量化版本(如 q4_0)可以降低显存需求,但会略微影响质量

性能优化

GPU 加速

确保已安装对应的 GPU 驱动:

bash
# NVIDIA GPU - 确认 CUDA 可用
nvidia-smi

# AMD GPU - 确认 ROCm 可用
rocm-smi

调整并发数

bash
# 设置 Ollama 并发数
export OLLAMA_NUM_PARALLEL=2

# 设置模型在内存中的保持时间
export OLLAMA_KEEP_ALIVE=30m

使用量化模型

对于显存有限的设备,选择量化版本:

bash
# 4-bit 量化版本,显存需求约为原始模型的 1/4
ollama pull qwen2.5:14b-q4_0

故障排查

Ollama 服务未启动

bash
# 启动 Ollama 服务
ollama serve

# 或检查服务状态
curl http://localhost:11434/api/tags

模型加载失败

  • 检查磁盘空间是否充足
  • 确认模型已成功下载:ollama list
  • 尝试重新拉取模型:ollama pull <model>

推理速度慢

  • 确认 GPU 驱动已正确安装
  • 尝试使用更小的模型或量化版本
  • 关闭其他占用 GPU 资源的程序

无法连接 OpenClaw

  • 确认 Ollama 正在运行:curl http://localhost:11434
  • 检查 OpenClaw 配置中的 baseUrl 是否正确
  • 如果 Ollama 在远程机器上,修改 baseUrl 为对应地址

🇨🇳 中国用户须知

  • 镜像加速:下载模型时如速度较慢,可设置代理:
    bash
    export HTTPS_PROXY="http://127.0.0.1:7890"
    ollama pull qwen2.5:14b
  • 推荐模型:优先使用 Qwen 2.5 系列,是目前中文能力最好的开源模型
  • 完全离线:模型下载完成后,可断网使用,数据不会离开本机
  • 企业合规:本地运行完全符合数据安全合规要求,无需担心数据外泄

基于MIT协议开源 | 内容翻译自 官方文档,同步更新