媒体理解

Media Understanding（媒体理解）是 OpenClaw 的多模态内容分析能力，支持对图片、音频、视频和文档等多种媒体类型进行智能分析。

支持的媒体类型

媒体类型	支持格式	分析能力
图片	JPEG, PNG, WebP, GIF	内容描述、OCR、物体识别
音频	MP3, WAV, Opus, M4A	转录、语言识别、情感分析
视频	MP4, WebM, MOV	关键帧提取、内容摘要
文档	PDF, DOCX, XLSX, PPTX	文字提取、结构分析

图片描述与分析

Agent 可以自动分析收到的图片内容：

场景识别

用户：[发送一张办公室照片]
用户：帮我描述一下这张照片

Agent：这是一间现代办公室，有 6 个工位，每个工位上有显示器和笔记本电脑。
       房间采光良好，有大面积落地窗。墙上挂着白板，上面有流程图。
       大约有 3-4 人在工作。

OCR 文字识别

用户：[发送一张名片照片]
用户：帮我提取名片上的信息

Agent：我识别到以下信息：
       姓名：张三
       职位：技术总监
       公司：某科技有限公司
       电话：138-xxxx-xxxx
       邮箱：[email protected]

配置

yaml

media:
  understanding:
    image:
      provider: openai       # 视觉模型提供商
      model: gpt-4o
      detail: auto           # 图片分析精度
      max_tokens: 2048       # 最大输出 Token 数

音频转录

将音频内容转换为文字，支持多种语言。

yaml

media:
  understanding:
    audio:
      provider: whisper
      model: large-v3
      language: auto          # 自动识别语言
      timestamps: true        # 包含时间戳
      diarization: true       # 说话人分离

说话人分离

开启 diarization（说话人分离）后，Agent 可以区分不同的发言者，适合会议记录场景。

转录输出示例：

[00:00 - 00:15] 说话人 A：今天的议题是第三季度产品规划。
[00:15 - 00:32] 说话人 B：我先汇报一下当前的进度...
[00:32 - 00:45] 说话人 A：好的，请继续。

视频帧提取

OpenClaw 不直接处理完整视频流，而是通过 Keyframe Extraction（关键帧提取）来分析视频内容。

提取策略

yaml

media:
  understanding:
    video:
      strategy: smart         # fixed / smart / scene_change
      max_frames: 20          # 最多提取帧数
      interval: 5             # fixed 模式下的间隔（秒）

策略	说明	适用场景
`fixed`	固定间隔提取	讲座、教程视频
`smart`	智能选取关键帧	通用视频（推荐）
`scene_change`	场景切换时提取	电影、Vlog

视频摘要

用户：[发送一段 3 分钟的视频]
用户：帮我总结这个视频的内容

Agent：这是一个烹饪教程视频，内容如下：
       1. [0:00-0:30] 展示食材：鸡胸肉、花生、干辣椒、葱姜蒜
       2. [0:30-1:30] 鸡肉切丁、腌制
       3. [1:30-2:30] 炒制过程
       4. [2:30-3:00] 成品展示和调味建议

文档解析

Agent 可以解析多种文档格式并提取内容。

支持的文档格式

格式	提取能力
PDF	文字、表格、图片提取
DOCX	全文提取、格式保留
XLSX	表格数据、公式结果
PPTX	每页文字和图片
CSV	结构化数据

配置

yaml

media:
  understanding:
    document:
      pdf_engine: pdfplumber   # pdfplumber / pymupdf / marker
      ocr_fallback: true       # 扫描版 PDF 自动 OCR
      table_extraction: true   # 提取表格数据
      max_pages: 100           # 最大处理页数

扫描版 PDF

扫描版 PDF 是图片形式的 PDF，需要 OCR 识别。建议开启 ocr_fallback 以自动处理此类文档。

模型要求

不同的媒体理解任务对模型有不同要求：

任务	最低要求	推荐模型
图片描述	多模态模型	GPT-4o, Qwen-VL-Max
OCR 识别	多模态模型	GPT-4o, GLM-4V
音频转录	STT 模型	Whisper large-v3
视频分析	多模态 + 帧提取	GPT-4o + ffmpeg
文档解析	文本模型即可	任意 LLM

完整配置示例

yaml

media:
  understanding:
    image:
      provider: openai
      model: gpt-4o
      detail: auto
    audio:
      provider: whisper
      model: large-v3
      language: auto
    video:
      strategy: smart
      max_frames: 20
    document:
      pdf_engine: pdfplumber
      ocr_fallback: true
      table_extraction: true
  preprocessing:
    auto_resize: true
    max_dimension: 2048
    strip_exif: true

🇨🇳 中国用户须知

中文 OCR：推荐使用 Qwen-VL-Max 或百度 OCR，对中文文字（包括手写体）识别精度更高
文档解析：国内常用的 WPS 格式（.wps/.et/.dps）需要先转换为 Office 标准格式
音频转录：中文语音推荐使用阿里云语音识别或本地 Whisper，识别准确率更高

媒体理解 ​

支持的媒体类型 ​

图片描述与分析 ​

场景识别 ​

OCR 文字识别 ​

配置 ​

音频转录 ​

视频帧提取 ​

提取策略 ​

视频摘要 ​

文档解析 ​

支持的文档格式 ​

配置 ​

模型要求 ​

完整配置示例 ​

🇨🇳 中国用户须知 ​

媒体理解

支持的媒体类型

图片描述与分析

场景识别

OCR 文字识别

配置

音频转录

视频帧提取

提取策略

视频摘要

文档解析

支持的文档格式

配置

模型要求

完整配置示例

🇨🇳 中国用户须知