MMAudio 是一项基于多模态联合训练的技术,支持视频到音频、文本到音频的精准合成,为视频进行音效配音,可广泛应用于影视制作、游戏开发等领域,提供高度同步的视听体验。
效果:
软件功能:
视频到音频合成:自动生成与视频内容高度匹配的音频。
文本到音频合成:根据文本描述生成对应的音频,适用纯文本场景。
多模态联合训练:在视听、音频和文本数据集上训练,增强对不同模态数据的处理能力。
同步模块:确保音频与视频帧或文本描述的精准对齐。
应用场景:
影视制作:自动生成音效或配音,提高制作效率。
游戏开发:根据游戏情景动态生成音效和背景音乐。
内容创作:为短视频或多媒体项目快速添加合适音频。
教育与辅助工具:根据教学视频或文本内容生成解说或提示音。
虚拟现实与增强现实:提供与场景高度一致的实时音效。
配置要求:
电脑满足以下配置:
操作系统:Windows 10/11 64位
显卡:至少12G显存的英伟达(NVIDIA)显卡
CUDA >= 12.4
整个包解压完约23.6G,要留足硬盘空间
电脑如未安装CUDA可以查看安装教程:https://www.rjgcz.com/10135.html
如何查看显卡品牌型号和显存:
打开任务管理器
点击“性能”
点击“GPU”
右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 下载整合包之后解压;
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面
③ 支持视频生成音频以及文本生成音频
1、视频生成音频
选择“视频配音”,上传视频,填写提示词(比如waves,海浪),设置时长(如需整个视频配音,需要设置大于等于视频时长),最后点击提交,生成结果位于右侧
可以播放查看,点击右上角下载按钮可以保存至指定文件夹
生成结果
视频播放器
2、文本生成音频
选择“文本生成音效”,填写提示词(比如waves,海浪),设置时长,点击提交,生成结果位于右侧
可以播放试听,点击右上角下载按钮可以保存至指定文件夹
声音效果
开源地址:https://github.com/hkchengrex/MMAudio