GPT-SoVITS-WebUI一键整合包及使用教程，更新至V2版本

GPT-SoVITS-WebUI一键整合包及使用教程，更新至V2版本

AI工具 1 年前专属

普通用户不可下载
体验会员免费
永久会员免费推荐

有效期：购买后永久有效
最近更新：2024年08月30日

详情介绍
常见问题

会员专属，加入会员后，所有内容免费下载，可永久使用！在个人中心每日签到可白嫖会员！

GPT-SoVITS-WebUI一键整合包及使用教程

2024-8-30日，更新V2版本

V1 & V2 模型对比及 V2 新特性

1. V2 模型新特性

(1) SoVITS 增强： 对于低音质参考音频（尤其是网络音频中常见的高频缺失、听感沉闷的音频），V2 模型能够合成出更优质的音频。

(2) 训练集扩充： 训练集扩充至 5k 小时，zero-shot 性能更佳，合成音色更接近目标音色。

(3) 新增语种支持： 新增韩语和粤语支持，现已支持五种语言间的互相跨语种合成。（跨语种合成指训练集、参考音频语种和目标合成语种可以互不相同。）

(4) 文本前端优化： 持续迭代更新，V2 版本中，中文和英文文本前端加入了多音字优化。

2. V1 与 V2 模型对比

特性	V1 (1月发布)	V2
语种支持（可互相跨语种合成）	中文、日语、英语	中文、日语、英语、韩语、粤语
GPT 训练集时长	2k 小时	2.5k 小时
SoVITS 训练集时长	2k 小时	VQ 编码器：2k 小时，其他参数：5k 小时
推理速度	基线	提升一倍
参数量	200M	保持不变
文本前端	基线	中文、日语、英语逻辑均有增强
功能	基线	新增语速调节、无参考文本模式、更优的混合语种切分

GPT-SoVITS-WebUI

语音技术在人工智能的驱动下，正在以前所未有的速度推进。GPT-SoVITS-WebUI正是这一变革的先驱它利用少量的声音源，可以快速地训练出一个语音合成（Text-to-Speech，简称TTS）模型。

这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音（TTS）功能，还支持跨语言的语音转换，为语音技术的爱好者和开发者打开了一扇新的大门。

功能亮点：

零次TTS： 只需输入一段5秒的语音样本，GPT-SoVITS-WebUI就能立即将其转换为文本，让你体验到即时的语音到文本的转换。
少次TTS： 通过微调模型，只需1分钟的训练数据，就能显著提升语音的相似度和真实感，这对于个性化语音合成尤为关键。
跨语言支持： GPT-SoVITS-WebUI能够处理与训练数据集不同语言的语音，目前支持英语、日语和中文，这大大拓宽了其应用范围。
WebUI工具集成： 工具中集成了多种实用功能，如语音伴奏分离、自动训练集分割、中文自动语音识别（ASR）和文本标注，这些工具对于初学者来说尤其友好，可以帮助他们轻松创建训练数据集和GPT/SoVITS模型。

学术Fun已将上述工具制作成一键启动包，点击即可使用，避免大家配置Python环境出现各种问题。下载地址： https://xueshu.fun/3670/，请在此页面右侧区域点击下载！

注意： 电脑配置需要满足以下条件：

运行Windows 10/11 64位操作系统

安装教程

下载压缩包
下载地址： https://xueshu.fun/3670/，请在此页面右侧区域点击下载！
解压压缩包
解压后的路径最好不要包含中文。解压完成后，如下图所示，双击启动.exe文件运行。

解压文件

启动WebUI
在浏览器中访问http://127.0.0.1:7860/，即可在浏览器中使用GPT-SoVITS-WebUI。

WebUI界面

使用教程

获取数据集

声音提取：
选择 “0a-UVR5人声伴奏分离&去混响去延迟工具” 页签。我们需要勾选 “是否开启UVR5-WebUI” 来提取声音，制作干声。

开启UVR5-WebUI

稍等一下，会打开一个新的WebUI界面。

新的WebUI界面

我们将在这个界面内完成提取干声的操作。将准备的音频或者视频文件拖放到左下角的框框内。

拖放音频或视频文件

选择处理的模型。如果你的视频声音比较干净，可以选择HP2模型。如果背景声音很嘈杂，可以选择HP3模型。

选择处理模型

选择输出格式，然后点击 “转换”。

点击转换

转换成功后，你可以在整合包output路径下的uvr5输出目录中找到转换结果。

转换结果

语音切分：
关闭 “是否开启UVR5-WebUI”，以释放显存。

关闭UVR5-WebUI

删除刚刚音频分离路径下的背景声音，并将路径复制到下面的输入框里。

删除背景声音

选择 “0b-语音切分工具” 页签。

选择语音切分工具

点击 “开始语音切割”。

开始语音切割

完成后，你可以在\output\slicer_opt路径下看到切割后的所有音频文件。

语音识别：
选择 “0c-中文批量离线ASR工具” 页签，将刚刚的分类目录路径复制到下面ASR中。

中文批量离线ASR工具

点击 “开启离线批量ASR”。

开启离线批量ASR

完成后，识别结果会保存在\output\asr_opt目录下。

开启标注工具：
选择 “0d-语音文本校对标注工具” 页签，把上面ASR生成的list文件的完整路径填写到下面的标注文件路径中。

开启标注工具

点击 “是否开启打标WebUI”，系统会提示打标工具已开启。稍等一会儿，会弹出新的WebUI窗口，这就是标注工具的WebUI界面。

标注工具WebUI界面

在这个界面里面进行文本校对，修改标点符号与停顿一致。如果听不清，有杂音，语速乱的，建议删除。或者回去进行音源调整。

进行文本校对

删除方式是先勾选，然后点击 “删除”。一定要点 “上一页” 和 “下一页” 查看全部的，以免漏下。校对无误后点击保存，提交文本。

提交文本

数据会保存到slicer_opt.list中。至此，我们已经完成了前置获取数据集的工作。

训练模型

训练集格式化：
点击 “1A-训练集格式化工具”，进入训练集格式化界面。填写训练的模型名称，填写上面数据集的list目录和音频切分的目录。

训练集格式化

点击下面按钮 “开启一键三连”。

开启一键三连

结束后，我们会在\logs\YeShu文件下看见23456。

训练完成

这里我们得到了后面需要训练的特征缓存文件。

微调训练：
点击 “1B-微调训练” 页签，进入子模型训练界面。

我们需要开启两个微调子模型的训练，参数默认即可。推荐使用20系以上的N卡，8G以上的显存。如果显存不够，可以降低batch_size的数值。

微调训练

点击 “开始SoVITS训练” 和 “开始GPT训练”。

开始SoVITS训练和GPT训练

VITS训练需要一些时间，请耐心等待。

训练中

训练中

训练完成后，微调模型就已经准备好了。

推理：
点击 “1C-推理” 页签，进入推理界面。

推理界面

首先我们点击 “刷新模型路径按钮”，将刚刚训练的子模型拉取进来。

刷新模型路径

然后点击 “是否开启TTS推理WebUI” 按钮，即可开启推理。

开启推理

开启推理

稍作等待，会弹出推理WebUI界面。

推理WebUI界面

推理前我们需要给它一个目标音色参考音频，可以在\logs\YeShu\5-wav32k路径下取一个音频。

目标音色参考音频

文本可以在\logs\YeShu\这个路径的这个文件里找到。

文本来源

我们将音频和文字，还有语音填入推理界面相应的位置。

填入推理界面

然后将我们想说的文本，填写到下面。并且选择一种切分方式，或者自己手动切分。

填写文本

点击 “合成语音”。

合成语音

听一下效果：

到此，推理部分完。

我们现在已经获得了一个训练完成的TTS模型。可以在推理界面输入任何文本，让其进行朗读。

实时变声

后续的变声部分还在更新当中。

实时变声

结语：

GPT-SoVITS-WebUI凭借其强大的功能和易用性，为语音技术的爱好者和开发者提供了一个强大的工具。它使得语音合成、识别和处理变得更加高效和便捷。随着技术的不断发展，我们期待GPT-SoVITS-WebUI能在未来的日子里，为语音技术的探索和应用带来更多的可能性。

声明：本站所有软件、课程、素材等资源全部来源于互联网，赞助VIP仅用于对本站服务器带宽及网站运营等费用支出做支持，从本站下载资源，说明你已同意本条款。如若本站内容侵犯了原著者的合法权益，请携带版权证明与我们联系，我们会及时处理。

会员分体验会员和永久会员，都可以免费下载本站所有课程、软件等资源。

体验会员状态的刷新时间为北京时间上午8:00。AI软件下载后可以永久使用，与会员有效期无关。

本站所有资源支持免费更新，具体规则如下：

登录后单独购买的资源，可以永久免费更新，无时间限制
购买体验会员的用户，在会员到期后，下载的内容将无法继续获得更新
购买永久会员的用户，可以永久免费更新，无时间限制

由于商品的特殊性，本站不支持退款，所以在开通会员之前，请确认你的需求。如果不放心，可以开通体验会员体验，满意再升级其他会员套餐。

从2019年开始已经运行3年多时间，诚信经营，会员过万，所有数据均有3级容灾备份，不存在安全问题。

碰到问题可优先查看文章教程。AI软件相关问题，请先检查自己机器是否为N卡，除非特别注明支持A卡或者CPU，一般默认只支持N卡运行，有些软件需要安装 CUDA 才能运行，请参考CUDA安装教程。其他售前售后问题请添加学术Fun公众号，站长每天上午8-9点，晚上7-8点时间段统一回复解决问题，其他时间看到留言也会第一时间解决。

相关文章

IndexTTS2本地版：B站出品，电影级AI配音神器来了！

IndexTTS2本地版：B站出品，电影级AI配音神器来了！

AI工具 5 月前 1.4K 专属

本地一键运行！VibeVoice让AI语音合成突破90分钟极限

本地一键运行！VibeVoice让AI语音合成突破90分钟极限

AI智慧馆 5 月前 760 专属

无审查声音克隆神器！OpenAudio一键克隆任何人声音

无审查声音克隆神器！OpenAudio一键克隆任何人声音

AI工具 6 月前 1.4K 专属

Vui：轻量级语音对话模型，让交互更自然 🗣️✨

Vui：轻量级语音对话模型，让交互更自然 🗣️✨

AI工具 8 月前 328 专属