AI-Media2Doc:视频图文转换利器,轻松制作多样化内容
AI-Media2Doc是一款基于AI技术的开源工具,能将视频和音频内容一键转换为多种文档风格,如小红书推文、微信公众号文章等,支持多种便捷功能,助力内容创作。
AI-Media2Doc介绍
AI-Media2Doc是一款基于AI大模型的开源Web工具,能够一键将视频和音频内容转化为多种文档风格,包括小红书推文、微信公众号文章、知识笔记、思维导图和视频字幕等,无需登录注册即可使用,并支持前端ffmpeg wasm处理、Docker一键部署及自定义Prompt等功能,同时保障隐私安全与本地部署体验,极大降低AI内容创作门槛。

AI-Media2Doc工具概览
- 产品定位:Web端AI视频图文创作助手,一键把多媒体内容转成结构化文档,支持二次问答与字幕导出。
- 使用门槛:纯前端处理,浏览器直接跑ffmpeg.wasm,无需安装本地FFmpeg。
- 价格模型:完全开源,MIT许可,个人与企业均可免费二次开发。
AI-Media2Doc核心亮点
- ✅ 完全开源:MIT协议授权,支持本地部署。
- 🔒 隐私保护:无需登录注册,任务记录保存在本地。
- 💻 前端处理:采用ffmpeg wasm技术,无需本地安装ffmpeg。
- 🎯 多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
- 🤖 AI对话:支持针对视频内容进行AI二次问答。
- 🎬 支持字幕导出: 结果一键导出为字幕文件。
- 🖼️ 智能截图: 基于字幕信息智能截图并插入文章, 无需视觉大模型, 实现真正的图文并茂。
- 🎨 支持自定义Prompt:支持在前端自定义配置prompt。
- 🐳 一键部署:支持Docker一键部署。
- 🔒 支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。
AI-Media2Doc技术架构
ffmpeg.wasm前端转码
通过WebAssembly把FFmpeg“搬进”浏览器,完成切片、抽帧、音轨提取等重活,无需后端GPU。
fast-whisper本地语音识别
未来版本将接入fast-whisper,大幅降低长音频转写成本,同时保留Whisper的多语言准确率。

小贴士:Whisper系模型在医疗等高敏领域存在“幻听”风险,上线前可按场景做后处理校正。
AI-Media2Doc部署与使用
Docker一键部署
# 克隆仓库 git clone https://github.com/hanshuaikang/AI-Media2Doc.git cd AI-Media2Doc # 构建镜像 make docker-image # 填写 variables.env(API密钥、TOS存储等) # 运行 make run 部署整套环境通常 <10 分钟;若需限制内网访问,可在后端配置访问密码。

浏览器即用
- 拖入视频/音频文件。
- 选择目标模板与语言。
- 点击「开始转换」,数十秒后获得结构化文档,可一键复制或导出SRT。
AI-Media2Doc未来规划
- 集成fast-whisper本地模型,离线转写更快更省。
- 增强Prompt市集,分享行业最佳实践。
- WebRTC录屏直传,支持边录边转。
AI-Media2Doc适用场景
| 场景 | 价值 |
|---|---|
| 教培机构复盘课堂视频 | 快速生成讲义、思维导图 |
| 创作者剪辑vlog | 自动出字幕与小红书图文 |
| 企业会议纪要 | 生成要点摘要与知识库条目 |
| 课程平台运营 | 批量把课程音频转公众号推文 |
MIT许可意味着可随意改功能、嵌SaaS、商业发行,只需保留版权声明,避免因闭源版权纠纷踩坑。
借助AI-Media2Doc,视频时代的“内容二创”门槛被拉到最低:资料上传→文稿下载,中间只隔一个进度条。
