会员专属资源,本页面右侧点击加入会员后,在可在本页面右侧中部点击免费下载!在个人中心签到,可白嫖会员!

MockingBird离线语音合成中文TTS整合包使用教程

MockingBird是一个实时语音克隆软件,能够帮助我们非常方便的进行语音克隆,支持普通话,能够方便使用不同的音色进行文字转语音(TTS)。

0 为什么不需要安装环境即可使用?

这次我用了便携版的python,把需要的环境、依赖、模型都打包进去了,不需要手动安装任何东西。

1 如何使用

在本页面右侧下载压缩包

后找一个还有至少5G空间的盘,解压压缩包,注意不能有中文路径!进入后双击运行工具箱/运行工具箱-vc模式/运行web程序 即可游玩项目

1.1 工具箱

在【Utterance(音频)】位置选择我内置的某一条音频,点击【Load Above(加载上面)】选中一条音频,此时你能在左边的【Current(当前)】位置看到这条音频。或者你也可以点击【打开本地】打开一条你自己要模仿的音频,再或者点击录音,录制你自己的声音作为输入。

接下来点击【Synthesizer】选择声学模型,pretrained-11-7-21_75k是作者提供的模型,下面的qh开头的是用海子姐的语音微调过的模型,rty开头的是用然天一大佬的合作音娘三七的语音微调过的模型。微调后的模型更适合模仿对应角色的语音。如果你上面选择的是qh或者rty开头的输入音频,你可以在下面选择对应的模型来获取更好的合成效果。如果你选择的是别的语音,选择作者提供的模型可能效果会更好。

关于【Vocoder】即声码器的选择可以先使用g_hifigan来快速合成音频听效果,如果效果还可以则可以选择pretrained获取更慢但更好的效果。

合成音频分为两步,一是声学模型合成梅尔图,你可以点击【Synthesize only】来进行合成,如果你合成的梅尔图效果比较清晰,则可以继续下一步,如果不清晰则可以尝试多合成几次。第二步是合成音频,你可以点击【Vocode only】来进行合成,当你想更换声码器时你可以在更换后点击【Vocode only】避免重复合成梅尔图。【Synthesize and Vocode】则是同时进行这两步。

合成完毕后左下角【Toolbox Output】位置会出现新的音频,你合成过的音频都会放在这里,你可以选择【Replay】重听,或点击【Export】导出。下面的【Audio Output】可以选择播放的音频设备

右侧的其它选项:【Random seed】:可能是固定每次合成中的随机种子。【Enhance vocoder output】:自动裁剪输入音频中的非语音部分以获得更好的模仿效果。【Style/Accuracy】:不知道(可以问问作者)【最大句长】:拉满,不然合成长句的时候可能会有截断的现象。

其他:

更换声学模型或声码器等情况下点击合成,可能会有窗口布局改变且合成失败的情况,再次点击合成即可。

当出现颤音的时候重新运行声码器基本都能解决

1.2 工具箱-vc模式

首先选择/上传/录制 两条音频,在【当前】中选择一条点击【选择为被转换的语音输入】,然后在【当前】中选择另一条,然后不要点【选择为被转换的语音输入】。然后再点击【Extract and Convert】此时程序将尝试用之后选择音频的音色来读之前选择音频的内容。

1.3 web程序

双击运行web程序,然后复制给出的地址,粘贴到浏览器里(如果不能访问请尝试访问127.0.0.1:8080)。然后游玩顺序就和工具箱基本一致了,在左侧切换模式,右侧的工作区可以上传音频/使用示例音频进行合成

2 其他细节

环境中安装的是CPU版本的pytorch,只能用于合成,不能用于训练,如果你想训练需要自己安装GPU版本的pytorch,以及cuda cudnn这些环境,你需要更深入的知识

如果你需要安装其他包,你可以运行文件夹中的【命令行】 然后使用 python -m pip 代替原本的 pip 命令进行安装

关于C++编译环境,之所以需要这个是因为目前有些包中包含C语言源码,需要编译才能安装,我已经将唯一一个需要编译的包 ctc_segmentation 编译完后打包放在了lib下,然后已经安装完成,如果以后还有这种问题可以用类似的方式解决,找个有编译环境的人给你打个编译完的包

关于重新获取项目:你可能需要备份所有位置下的.pt文件 然后删除源MockingBird文件夹,双击【获取项目】重新从github上克隆项目

关于更新项目:双击【更新项目】

关于github访问失败:偶现,重试就行,再不行就过会再重试

其他模型:在github项目的issue里翻翻,有其他网友分享的模型,下载后把pt文件放在 MockingBird\synthesizer\saved_models 下即可

关于MockingBird和PaddleSpeech:这两者其实不是一个赛道上的产品,但是恰巧都能实现语音克隆的功能,我个人觉得还是paddlespeech的小样本微调更有实践价值,MockingBird因为作者很忙等原因,目前的开发进度很缓慢,而且最重要的是搞不到其他开源的数据集可供使用,理论上如果数据集无限供应的话MB的效果起码会和PS一样好。而且PS这边的TTS全职开发者数量高达两个,已经高出了MB这边百分之百,这是何等巨大的优势(雾)。PS的数据标注,预处理,微调训练也已完成了自动化操作,简化了许多人力。建议有语音克隆需求的小伙伴在双方都尝试一下,寻找适合自的解决方案。

本站是综合资源网站,除了课程之外,还有常用软件,模板素材等内容。 开通会员账号之后,网站中的所有内容均可免费下载。

本站从2019年开始运行,截至目前已经有3年多时间,诚信经营,会员过万。 本站在国内外均有服务器,所有数据均有3级容灾备份,安全问题不用担心。

由于商品的特殊性,本站不支持退款,所以在开通会员之前,请确认你的需求。 如果不放心,可以先单独购买课程,或者开通体验会员体验,满意再升级其他会员套餐。

本站所有课程,均存储在阿里云盘和百度网盘中,可以在线观看,也可以下载后本地观看。

每一个课程页面,都有演示地址选项,点击链接可以跳转到课程发布网站查看详细课程列表。绝大部分课程都有试看内容,可以先点击试看,再决定是否购买。