F5-TTS 是一款功能强大的文本转语音(TTS)系统,能够为用户提供自然流畅的语音生成体验。它支持多语言切换、语速调节和情感表达,并具备独特的零样本生成能力及大规模多语言训练优势。新增的双人对话功能,进一步拓展了其应用场景,是全球化交流和创作的理想工具。
软件功能特点
1. 多语言切换
支持多种语言间无缝切换,轻松应对复杂的多语言输入需求。
2. 零样本生成能力
无需特定训练样本即可生成高质量语音,适应新语言或未见过的语音风格。
3. 语速调节
提供语速控制功能,用户可根据需要调整语音节奏,适配多样场景。
4. 双人对话功能
允许设置两个角色进行对话,方便创作对话类内容。
适用场景
F5-TTS 可广泛用于智能助手、在线教育和内容创作等领域。无论是自然流畅的语音输出还是丰富的情感表达,这款工具都能满足需求,特别适合需要高质量语音生成和多语言支持的用户。
配置要求
– 操作系统:Windows 10/11 64位
– 显卡:建议使用8GB显存及以上的NVIDIA显卡,支持 CUDA >= 11.8
– 硬盘空间:解压后需约10.1GB,请确保硬盘有足够空间
– 显卡品牌及显存查看方法:
1. 打开任务管理器
2. 点击“性能”选项卡
3. 选择“GPU”,右上角可查看显卡型号,下方显示显存大小
CUDA 安装教程:点击查看教程
使用教程
1. 解压整合包
确保解压路径和文件名无中文字符,避免软件运行出错。
2. 音频素材准备
建议素材时长控制在 15 秒内,声音为干声(无背景音、无杂音)。有背景音可使用 [UVR]处理。
3. 启动操作界面
双击“一键启动.exe”,稍等片刻即可在浏览器中打开操作界面。
4. 单角色语音生成
– 上传音频
– 输入参考音频文本(即音频中的对白内容)
– 勾选“删除静音”
– 输入需要生成的文本,句末加句号,点击生成
生成结果会显示在页面下方,支持试听和下载。
【原音频】
【生成结果】
5. 双角色对话生成
– 选择“Podcast”模式,为两个角色命名并上传各自音频,输入对应的参考文本
– 编写对话脚本,注意格式:角色姓名后加冒号写对话内容,句末需加句号
– 勾选“删除静音”,点击生成
生成结果会显示在下方,可试听或下载。
【原音频-A】
【原音频-B】
【生成结果】
PS:工具还支持情绪生成,不过测试下来效果一般,有兴趣可以自行测试!
开源地址:https://github.com/SWivid/F5-TTS