这是一套基于机器学习的开源AI语音合成Python源码,可生成一个实时语音克隆工具,它通过深度学习,只需要说话者几秒钟的原始音频,就能模仿该说话者的声音进行说话了。

演示视频

下载地址

英文版:
https://github.com/CorentinJ/Real-Time-Voice-Cloning

中文版:
https://github.com/babysor/Realtime-Voice-Clone-Chinese

快速开始

1.安装要求

按照原始存储库测试您是否已准备好所有环境。**Python 3.7 或更高版本 ** 需要运行工具箱。

  • 安装PyTorch。

如果出现ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2 )此错误可能是由于python版本低,请尝试使用3.9,它会成功安装

  • 安装ffmpeg。
  • 运行pip install -r requirements.txt以安装剩余的必要软件包。
  • 安装 webrtcvad pip install webrtcvad-wheels(如果需要)

请注意,我们使用的是预训练的编码器/声码器而不是合成器,因为原始模型与中文符号不兼容。这意味着 demo_cli 目前不工作。

2. 用你的数据集训练合成器

  • 下载 adatatang_200zh 或其他数据集并解压:确保您可以访问train文件夹中的所有 .wav
  • 使用音频和 mel 频谱图进行预处理: python pre.py <datasets_root> 允许参数--dataset {dataset}支持 adatatang_200zh、magicdata、aishell3

如果出现这种情况the page file is too small to complete the operation,请参考这个视频,将虚拟内存改为100G(102400),例如:当文件放在D盘时,D盘的虚拟内存就改变了。

  • 训练合成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
  • 当您在训练文件夹synthesizer/saved_models/ 中看到 attention line show 和 loss 满足您的需要时,请转到下一步。

仅供参考,我的注意力是在 18k 步之后出现的,并且在 50k 步之后损失变得低于 0.4。  

2.2 使用合成器的预训练模型

感谢社区,将分享一些模型:

作者 下载链接 上一个视频
@miven https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ代码:2021 https://www.bilibili.com/video/BV1uh411B7AD/

我的早期训练模型的链接:百度云 代码:aid4

2.3 训练声码器(可选)

  • 预处理数据: python vocoder_preprocess.py <datasets_root>
  • 训练声码器: python vocoder_train.py mandarin <datasets_root>

3. 启动工具箱

然后您可以尝试使用工具箱:

python demo_toolbox.py -d <datasets_root> 或者 python demo_toolbox.py

好消息?: 支持汉字

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源