Skip to content
广告 · 本站推荐广告

媒体理解

Media Understanding(媒体理解)是 OpenClaw 的多模态内容分析能力,支持对图片、音频、视频和文档等多种媒体类型进行智能分析。

支持的媒体类型

媒体类型支持格式分析能力
图片JPEG, PNG, WebP, GIF内容描述、OCR、物体识别
音频MP3, WAV, Opus, M4A转录、语言识别、情感分析
视频MP4, WebM, MOV关键帧提取、内容摘要
文档PDF, DOCX, XLSX, PPTX文字提取、结构分析

图片描述与分析

Agent 可以自动分析收到的图片内容:

场景识别

用户:[发送一张办公室照片]
用户:帮我描述一下这张照片

Agent:这是一间现代办公室,有 6 个工位,每个工位上有显示器和笔记本电脑。
       房间采光良好,有大面积落地窗。墙上挂着白板,上面有流程图。
       大约有 3-4 人在工作。

OCR 文字识别

用户:[发送一张名片照片]
用户:帮我提取名片上的信息

Agent:我识别到以下信息:
       姓名:张三
       职位:技术总监
       公司:某科技有限公司
       电话:138-xxxx-xxxx
       邮箱:zhangsan@example.com

配置

yaml
media:
  understanding:
    image:
      provider: openai       # 视觉模型提供商
      model: gpt-4o
      detail: auto           # 图片分析精度
      max_tokens: 2048       # 最大输出 Token 数

音频转录

将音频内容转换为文字,支持多种语言。

yaml
media:
  understanding:
    audio:
      provider: whisper
      model: large-v3
      language: auto          # 自动识别语言
      timestamps: true        # 包含时间戳
      diarization: true       # 说话人分离

说话人分离

开启 diarization(说话人分离)后,Agent 可以区分不同的发言者,适合会议记录场景。

转录输出示例:

[00:00 - 00:15] 说话人 A:今天的议题是第三季度产品规划。
[00:15 - 00:32] 说话人 B:我先汇报一下当前的进度...
[00:32 - 00:45] 说话人 A:好的,请继续。

视频帧提取

OpenClaw 不直接处理完整视频流,而是通过 Keyframe Extraction(关键帧提取)来分析视频内容。

提取策略

yaml
media:
  understanding:
    video:
      strategy: smart         # fixed / smart / scene_change
      max_frames: 20          # 最多提取帧数
      interval: 5             # fixed 模式下的间隔(秒)
策略说明适用场景
fixed固定间隔提取讲座、教程视频
smart智能选取关键帧通用视频(推荐)
scene_change场景切换时提取电影、Vlog

视频摘要

用户:[发送一段 3 分钟的视频]
用户:帮我总结这个视频的内容

Agent:这是一个烹饪教程视频,内容如下:
       1. [0:00-0:30] 展示食材:鸡胸肉、花生、干辣椒、葱姜蒜
       2. [0:30-1:30] 鸡肉切丁、腌制
       3. [1:30-2:30] 炒制过程
       4. [2:30-3:00] 成品展示和调味建议

文档解析

Agent 可以解析多种文档格式并提取内容。

支持的文档格式

格式提取能力
PDF文字、表格、图片提取
DOCX全文提取、格式保留
XLSX表格数据、公式结果
PPTX每页文字和图片
CSV结构化数据

配置

yaml
media:
  understanding:
    document:
      pdf_engine: pdfplumber   # pdfplumber / pymupdf / marker
      ocr_fallback: true       # 扫描版 PDF 自动 OCR
      table_extraction: true   # 提取表格数据
      max_pages: 100           # 最大处理页数

扫描版 PDF

扫描版 PDF 是图片形式的 PDF,需要 OCR 识别。建议开启 ocr_fallback 以自动处理此类文档。

模型要求

不同的媒体理解任务对模型有不同要求:

任务最低要求推荐模型
图片描述多模态模型GPT-4o, Qwen-VL-Max
OCR 识别多模态模型GPT-4o, GLM-4V
音频转录STT 模型Whisper large-v3
视频分析多模态 + 帧提取GPT-4o + ffmpeg
文档解析文本模型即可任意 LLM

完整配置示例

yaml
media:
  understanding:
    image:
      provider: openai
      model: gpt-4o
      detail: auto
    audio:
      provider: whisper
      model: large-v3
      language: auto
    video:
      strategy: smart
      max_frames: 20
    document:
      pdf_engine: pdfplumber
      ocr_fallback: true
      table_extraction: true
  preprocessing:
    auto_resize: true
    max_dimension: 2048
    strip_exif: true

🇨🇳 中国用户须知

  • 中文 OCR:推荐使用 Qwen-VL-Max 或百度 OCR,对中文文字(包括手写体)识别精度更高
  • 文档解析:国内常用的 WPS 格式(.wps/.et/.dps)需要先转换为 Office 标准格式
  • 音频转录:中文语音推荐使用阿里云语音识别或本地 Whisper,识别准确率更高

基于MIT协议开源 | 内容翻译自 官方文档,同步更新