会员专属资源,本页面右侧点击加入会员后,在可在本页面右侧中部点击免费下载!

VALL-E:三秒录音,声音克隆免安装中文版整合包

VALL-EX :一个开源的多语言文本到语音合成与语音克隆模型。

该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型,它更轻量、更快速…

VALL-EX最初由微软发布。但并未发布任何代码或预训练模型。作者认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。

VALL-E X 模型具有以下显著的功能特点:

  1. 多语言 TTS(文本到语音合成): 支持英语、中文和日语,能进行自然和富有表现力的语音合成。
  2. 零样本语音克隆: 只需录制说话人短短的 3~10 秒录音,即可生成个性化、高质量的语音。
  3. 语音情感控制: 能合成与给定说话人录音相同情感的语音。
  4. 零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。
  5. 口音控制: 允许用户控制所合成音频的口音。
  6. 声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,模型可以保留该声学环境。

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置Python环境出现各种问题,下载地址: https://xueshu.fun/3109/在此页面右侧区域点击下载!

注意电脑配置如下

  • windows 10/11
  • 8G显存以上英伟达显卡

下载使用教程

  • 下载压缩包
    下载地址: https://xueshu.fun/3109/在此页面右侧区域点击下载!

  • 解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行

  • 浏览器访问http://127.0.0.1:7860/,即可在浏览器使用

问题排查

整合包已打包所有环境及模型,一般不会出现问题,如有问题,可按以下方式排查。

  • 显卡适配,若程序启动后您的页面看不到CUDA,请打开venv-cmd.bat 依次输入以下命令:
pip uninstall onnxruntime onnxruntime-gpu
pip install onnxruntime-gpu==1.15.1
  • 大多数情况下可用以下命令解决OpenCV错误
pip uninstall opencv-python opencv-python-headless
pip install opencv-python

本站是综合资源网站,除了课程之外,还有常用软件,模板素材等内容。 开通会员账号之后,网站中的所有内容均可免费下载。

本站从2019年开始运行,截至目前已经有3年多时间,诚信经营,会员过万。 本站在国内外均有服务器,所有数据均有3级容灾备份,安全问题不用担心。

由于商品的特殊性,本站不支持退款,所以在开通会员之前,请确认你的需求。 如果不放心,可以先单独购买课程,或者开通体验会员体验,满意再升级其他会员套餐。

本站所有课程,均存储在阿里云盘和百度网盘中,可以在线观看,也可以下载后本地观看。

每一个课程页面,都有演示地址选项,点击链接可以跳转到课程发布网站查看详细课程列表。绝大部分课程都有试看内容,可以先点击试看,再决定是否购买。