AI-Media2Doc：视频图文转换利器，轻松制作多样化内容

AI-Media2Doc是一款基于AI技术的开源工具，能将视频和音频内容一键转换为多种文档风格，如小红书推文、微信公众号文章等，支持多种便捷功能，助力内容创作。

5 天前刚刚5AI工具AI视频转图文内容创作工具开源软件多媒体转换

AI-Media2Doc介绍

AI-Media2Doc是一款基于AI大模型的开源Web工具，能够一键将视频和音频内容转化为多种文档风格，包括小红书推文、微信公众号文章、知识笔记、思维导图和视频字幕等，无需登录注册即可使用，并支持前端ffmpeg wasm处理、Docker一键部署及自定义Prompt等功能，同时保障隐私安全与本地部署体验，极大降低AI内容创作门槛。

AI-Media2Doc工具概览

产品定位：Web端AI视频图文创作助手，一键把多媒体内容转成结构化文档，支持二次问答与字幕导出。
使用门槛：纯前端处理，浏览器直接跑ffmpeg.wasm，无需安装本地FFmpeg。
价格模型：完全开源，MIT许可，个人与企业均可免费二次开发。

AI-Media2Doc核心亮点

✅ 完全开源：MIT协议授权，支持本地部署。
🔒 隐私保护：无需登录注册，任务记录保存在本地。
💻 前端处理：采用ffmpeg wasm技术，无需本地安装ffmpeg。
🎯 多种风格支持：支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
🤖 AI对话：支持针对视频内容进行AI二次问答。
🎬 支持字幕导出: 结果一键导出为字幕文件。
🖼️ 智能截图: 基于字幕信息智能截图并插入文章, 无需视觉大模型, 实现真正的图文并茂。
🎨 支持自定义Prompt：支持在前端自定义配置prompt。
🐳 一键部署：支持Docker一键部署。
🔒 支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。

AI-Media2Doc技术架构

ffmpeg.wasm前端转码

通过WebAssembly把FFmpeg“搬进”浏览器，完成切片、抽帧、音轨提取等重活，无需后端GPU。

fast-whisper本地语音识别

未来版本将接入fast-whisper，大幅降低长音频转写成本，同时保留Whisper的多语言准确率。

小贴士：Whisper系模型在医疗等高敏领域存在“幻听”风险，上线前可按场景做后处理校正。

AI-Media2Doc部署与使用

Docker一键部署

# 克隆仓库 git clone https://github.com/hanshuaikang/AI-Media2Doc.git cd AI-Media2Doc # 构建镜像 make docker-image # 填写 variables.env（API密钥、TOS存储等） # 运行 make run

部署整套环境通常 <10 分钟；若需限制内网访问，可在后端配置访问密码。

AI-Media2Doc：开源 AI 视频转图文神器，秒产小红书与公众号多风格内容

浏览器即用

拖入视频/音频文件。
选择目标模板与语言。
点击「开始转换」，数十秒后获得结构化文档，可一键复制或导出SRT。

AI-Media2Doc未来规划

集成fast-whisper本地模型，离线转写更快更省。
增强Prompt市集，分享行业最佳实践。
WebRTC录屏直传，支持边录边转。

AI-Media2Doc适用场景

场景	价值
教培机构复盘课堂视频	快速生成讲义、思维导图
创作者剪辑vlog	自动出字幕与小红书图文
企业会议纪要	生成要点摘要与知识库条目
课程平台运营	批量把课程音频转公众号推文

借助AI-Media2Doc，视频时代的“内容二创”门槛被拉到最低：资料上传→文稿下载，中间只隔一个进度条。

AI-Media2Doc：开源 AI 视频转图文神器，秒产小红书与公众号多风格内容

AI-Media2Doc如何使用

GitHub地址：https://github.com/hanshuaikang/AI-Media2Doc