媒体理解
Media Understanding(媒体理解)是 OpenClaw 的多模态内容分析能力,支持对图片、音频、视频和文档等多种媒体类型进行智能分析。
支持的媒体类型
| 媒体类型 | 支持格式 | 分析能力 |
|---|---|---|
| 图片 | JPEG, PNG, WebP, GIF | 内容描述、OCR、物体识别 |
| 音频 | MP3, WAV, Opus, M4A | 转录、语言识别、情感分析 |
| 视频 | MP4, WebM, MOV | 关键帧提取、内容摘要 |
| 文档 | PDF, DOCX, XLSX, PPTX | 文字提取、结构分析 |
图片描述与分析
Agent 可以自动分析收到的图片内容:
场景识别
用户:[发送一张办公室照片]
用户:帮我描述一下这张照片
Agent:这是一间现代办公室,有 6 个工位,每个工位上有显示器和笔记本电脑。
房间采光良好,有大面积落地窗。墙上挂着白板,上面有流程图。
大约有 3-4 人在工作。OCR 文字识别
用户:[发送一张名片照片]
用户:帮我提取名片上的信息
Agent:我识别到以下信息:
姓名:张三
职位:技术总监
公司:某科技有限公司
电话:138-xxxx-xxxx
邮箱:zhangsan@example.com配置
yaml
media:
understanding:
image:
provider: openai # 视觉模型提供商
model: gpt-4o
detail: auto # 图片分析精度
max_tokens: 2048 # 最大输出 Token 数音频转录
将音频内容转换为文字,支持多种语言。
yaml
media:
understanding:
audio:
provider: whisper
model: large-v3
language: auto # 自动识别语言
timestamps: true # 包含时间戳
diarization: true # 说话人分离说话人分离
开启 diarization(说话人分离)后,Agent 可以区分不同的发言者,适合会议记录场景。
转录输出示例:
[00:00 - 00:15] 说话人 A:今天的议题是第三季度产品规划。
[00:15 - 00:32] 说话人 B:我先汇报一下当前的进度...
[00:32 - 00:45] 说话人 A:好的,请继续。视频帧提取
OpenClaw 不直接处理完整视频流,而是通过 Keyframe Extraction(关键帧提取)来分析视频内容。
提取策略
yaml
media:
understanding:
video:
strategy: smart # fixed / smart / scene_change
max_frames: 20 # 最多提取帧数
interval: 5 # fixed 模式下的间隔(秒)| 策略 | 说明 | 适用场景 |
|---|---|---|
fixed | 固定间隔提取 | 讲座、教程视频 |
smart | 智能选取关键帧 | 通用视频(推荐) |
scene_change | 场景切换时提取 | 电影、Vlog |
视频摘要
用户:[发送一段 3 分钟的视频]
用户:帮我总结这个视频的内容
Agent:这是一个烹饪教程视频,内容如下:
1. [0:00-0:30] 展示食材:鸡胸肉、花生、干辣椒、葱姜蒜
2. [0:30-1:30] 鸡肉切丁、腌制
3. [1:30-2:30] 炒制过程
4. [2:30-3:00] 成品展示和调味建议文档解析
Agent 可以解析多种文档格式并提取内容。
支持的文档格式
| 格式 | 提取能力 |
|---|---|
| 文字、表格、图片提取 | |
| DOCX | 全文提取、格式保留 |
| XLSX | 表格数据、公式结果 |
| PPTX | 每页文字和图片 |
| CSV | 结构化数据 |
配置
yaml
media:
understanding:
document:
pdf_engine: pdfplumber # pdfplumber / pymupdf / marker
ocr_fallback: true # 扫描版 PDF 自动 OCR
table_extraction: true # 提取表格数据
max_pages: 100 # 最大处理页数扫描版 PDF
扫描版 PDF 是图片形式的 PDF,需要 OCR 识别。建议开启 ocr_fallback 以自动处理此类文档。
模型要求
不同的媒体理解任务对模型有不同要求:
| 任务 | 最低要求 | 推荐模型 |
|---|---|---|
| 图片描述 | 多模态模型 | GPT-4o, Qwen-VL-Max |
| OCR 识别 | 多模态模型 | GPT-4o, GLM-4V |
| 音频转录 | STT 模型 | Whisper large-v3 |
| 视频分析 | 多模态 + 帧提取 | GPT-4o + ffmpeg |
| 文档解析 | 文本模型即可 | 任意 LLM |
完整配置示例
yaml
media:
understanding:
image:
provider: openai
model: gpt-4o
detail: auto
audio:
provider: whisper
model: large-v3
language: auto
video:
strategy: smart
max_frames: 20
document:
pdf_engine: pdfplumber
ocr_fallback: true
table_extraction: true
preprocessing:
auto_resize: true
max_dimension: 2048
strip_exif: true🇨🇳 中国用户须知
- 中文 OCR:推荐使用 Qwen-VL-Max 或百度 OCR,对中文文字(包括手写体)识别精度更高
- 文档解析:国内常用的 WPS 格式(.wps/.et/.dps)需要先转换为 Office 标准格式
- 音频转录:中文语音推荐使用阿里云语音识别或本地 Whisper,识别准确率更高
