会员专属,加入会员后,所有内容免费下载,可永久使用!在个人中心每日签到可白嫖会员!

GPT-SoVITS-WebUI一键整合包及使用教程

2024-8-30日,更新V2版本

V1 & V2 模型对比及 V2 新特性

1. V2 模型新特性

(1) SoVITS 增强: 对于低音质参考音频(尤其是网络音频中常见的高频缺失、听感沉闷的音频),V2 模型能够合成出更优质的音频。

(2) 训练集扩充: 训练集扩充至 5k 小时,zero-shot 性能更佳,合成音色更接近目标音色。

(3) 新增语种支持: 新增韩语和粤语支持,现已支持五种语言间的互相跨语种合成。(跨语种合成指训练集、参考音频语种和目标合成语种可以互不相同。)

(4) 文本前端优化: 持续迭代更新,V2 版本中,中文和英文文本前端加入了多音字优化。

2. V1 与 V2 模型对比

特性 V1 (1月发布) V2
语种支持(可互相跨语种合成) 中文、日语、英语 中文、日语、英语、韩语、粤语
GPT 训练集时长 2k 小时 2.5k 小时
SoVITS 训练集时长 2k 小时 VQ 编码器:2k 小时,其他参数:5k 小时
推理速度 基线 提升一倍
参数量 200M 保持不变
文本前端 基线 中文、日语、英语逻辑均有增强
功能 基线 新增语速调节、无参考文本模式、更优的混合语种切分

 

GPT-SoVITS-WebUI
GPT-SoVITS-WebUI

语音技术在人工智能的驱动下,正在以前所未有的速度推进。GPT-SoVITS-WebUI正是这一变革的先驱它利用少量的声音源,可以快速地训练出一个语音合成(Text-to-Speech,简称TTS)模型。

这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨语言的语音转换,为语音技术的爱好者和开发者打开了一扇新的大门。

功能亮点:

  • 零次TTS: 只需输入一段5秒的语音样本,GPT-SoVITS-WebUI就能立即将其转换为文本,让你体验到即时的语音到文本的转换。

  • 少次TTS: 通过微调模型,只需1分钟的训练数据,就能显著提升语音的相似度和真实感,这对于个性化语音合成尤为关键。

  • 跨语言支持: GPT-SoVITS-WebUI能够处理与训练数据集不同语言的语音,目前支持英语、日语和中文,这大大拓宽了其应用范围。

  • WebUI工具集成: 工具中集成了多种实用功能,如语音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,这些工具对于初学者来说尤其友好,可以帮助他们轻松创建训练数据集和GPT/SoVITS模型。

学术Fun已将上述工具制作成一键启动包,点击即可使用,避免大家配置Python环境出现各种问题。下载地址: https://xueshu.fun/3670/,请在此页面右侧区域点击下载!

注意: 电脑配置需要满足以下条件:

  • 运行Windows 10/11 64位操作系统

安装教程

  1. 下载压缩包
    下载地址: https://xueshu.fun/3670/,请在此页面右侧区域点击下载!

  2. 解压压缩包
    解压后的路径最好不要包含中文。解压完成后,如下图所示,双击启动.exe文件运行。

解压文件
解压文件
  1. 启动WebUI
    在浏览器中访问http://127.0.0.1:7860/,即可在浏览器中使用GPT-SoVITS-WebUI。
WebUI界面
WebUI界面

使用教程

获取数据集

  1. 声音提取:
    选择 “0a-UVR5人声伴奏分离&去混响去延迟工具” 页签。我们需要勾选 “是否开启UVR5-WebUI” 来提取声音,制作干声。
开启UVR5-WebUI
开启UVR5-WebUI

稍等一下,会打开一个新的WebUI界面。

新的WebUI界面
新的WebUI界面

我们将在这个界面内完成提取干声的操作。将准备的音频或者视频文件拖放到左下角的框框内。

拖放音频或视频文件
拖放音频或视频文件

选择处理的模型。如果你的视频声音比较干净,可以选择HP2模型。如果背景声音很嘈杂,可以选择HP3模型。

选择处理模型
选择处理模型

选择输出格式,然后点击 “转换”。

点击转换
点击转换

转换成功后,你可以在整合包output路径下的uvr5输出目录中找到转换结果。

转换结果
转换结果
  1. 语音切分:
    关闭 “是否开启UVR5-WebUI”,以释放显存。
关闭UVR5-WebUI
关闭UVR5-WebUI

删除刚刚音频分离路径下的背景声音,并将路径复制到下面的输入框里。

删除背景声音
删除背景声音

选择 “0b-语音切分工具” 页签。

选择语音切分工具
选择语音切分工具

点击 “开始语音切割”。

开始语音切割
开始语音切割

完成后,你可以在\output\slicer_opt路径下看到切割后的所有音频文件。

  1. 语音识别:
    选择 “0c-中文批量离线ASR工具” 页签,将刚刚的分类目录路径复制到下面ASR中。
中文批量离线ASR工具
中文批量离线ASR工具

点击 “开启离线批量ASR”。

开启离线批量ASR
开启离线批量ASR

完成后,识别结果会保存在\output\asr_opt目录下。

  1. 开启标注工具:
    选择 “0d-语音文本校对标注工具” 页签,把上面ASR生成的list文件的完整路径填写到下面的标注文件路径中。
开启标注工具
开启标注工具

点击 “是否开启打标WebUI”,系统会提示打标工具已开启。稍等一会儿,会弹出新的WebUI窗口,这就是标注工具的WebUI界面。

标注工具WebUI界面
标注工具WebUI界面

在这个界面里面进行文本校对,修改标点符号与停顿一致。如果听不清,有杂音,语速乱的,建议删除。或者回去进行音源调整。

进行文本校对
进行文本校对

删除方式是先勾选,然后点击 “删除”。一定要点 “上一页” 和 “下一页” 查看全部的,以免漏下。校对无误后点击保存,提交文本。

提交文本
提交文本

数据会保存到slicer_opt.list中。至此,我们已经完成了前置获取数据集的工作。

训练模型

  1. 训练集格式化:
    点击 “1A-训练集格式化工具”,进入训练集格式化界面。填写训练的模型名称,填写上面数据集的list目录和音频切分的目录。
训练集格式化
训练集格式化

点击下面按钮 “开启一键三连”。

开启一键三连
开启一键三连

结束后,我们会在\logs\YeShu文件下看见23456。

训练完成
训练完成

这里我们得到了后面需要训练的特征缓存文件。

  1. 微调训练:
    点击 “1B-微调训练” 页签,进入子模型训练界面。

我们需要开启两个微调子模型的训练,参数默认即可。推荐使用20系以上的N卡,8G以上的显存。如果显存不够,可以降低batch_size的数值。

微调训练
微调训练

点击 “开始SoVITS训练” 和 “开始GPT训练”。

开始SoVITS训练和GPT训练
开始SoVITS训练和GPT训练

VITS训练需要一些时间,请耐心等待。

训练中
训练中
训练中
训练中

训练完成后,微调模型就已经准备好了。

  1. 推理:
    点击 “1C-推理” 页签,进入推理界面。
推理界面
推理界面

首先我们点击 “刷新模型路径按钮”,将刚刚训练的子模型拉取进来。

刷新模型路径
刷新模型路径

然后点击 “是否开启TTS推理WebUI” 按钮,即可开启推理。

开启推理
开启推理
开启推理
开启推理

稍作等待,会弹出推理WebUI界面。

推理WebUI界面
推理WebUI界面

推理前我们需要给它一个目标音色参考音频,可以在\logs\YeShu\5-wav32k路径下取一个音频。

目标音色参考音频
目标音色参考音频

文本可以在\logs\YeShu\这个路径的这个文件里找到。

文本来源
文本来源

我们将音频和文字,还有语音填入推理界面相应的位置。

填入推理界面
填入推理界面

然后将我们想说的文本,填写到下面。并且选择一种切分方式,或者自己手动切分。

填写文本
填写文本

点击 “合成语音”。

合成语音
合成语音

听一下效果:

到此,推理部分完。

我们现在已经获得了一个训练完成的TTS模型。可以在推理界面输入任何文本,让其进行朗读。

实时变声

后续的变声部分还在更新当中。

实时变声
实时变声

结语:

GPT-SoVITS-WebUI凭借其强大的功能和易用性,为语音技术的爱好者和开发者提供了一个强大的工具。它使得语音合成、识别和处理变得更加高效和便捷。随着技术的不断发展,我们期待GPT-SoVITS-WebUI能在未来的日子里,为语音技术的探索和应用带来更多的可能性。

会员分体验会员和永久会员,都可以免费下载本站所有课程软件等资源。

体验会员状态的刷新时间为北京时间上午8:00。AI软件下载后可以永久使用,与会员有效期无关。

本站所有资源支持免费更新,具体规则如下:

  • 登录后单独购买的资源,可以永久免费更新,无时间限制
  • 购买体验会员的用户,在会员到期后,下载的内容将无法继续获得更新
  • 购买永久会员的用户,可以永久免费更新,无时间限制

由于商品的特殊性,本站不支持退款,所以在开通会员之前,请确认你的需求。如果不放心,可以开通体验会员体验,满意再升级其他会员套餐。

从2019年开始已经运行3年多时间,诚信经营,会员过万,所有数据均有3级容灾备份,不存在安全问题。

碰到问题可优先查看文章教程。AI软件相关问题,请先检查自己机器是否为N卡,除非特别注明支持A卡或者CPU,一般默认只支持N卡运行,有些软件需要安装 CUDA 才能运行,请参考CUDA安装教程。其他售前售后问题请添加学术Fun公众号,站长每天上午8-9点,晚上7-8点时间段统一回复解决问题,其他时间看到留言也会第一时间解决。