第240919期 - Retrieval
22.6k star,开箱即用的 AI 变声器Retrieval-based Voice Conversion WebUI 是一个基于 VITS(Variational Inference Text-to-Speech)的开源语音转换框架。该项目旨在提供一个易于使用的界面,使用户能够快速实现高质量的语音转换。通过利用先进的语音处理算法和机器学习模型,用户可以将一种语音转换为另一种语音,同时保持高保真度和自然度。
功能特点
- 高效的语音转换:利用 VITS 模型,能够实现高质量的语音转换,减少音调泄漏问题。
- 实时变声:支持实时语音转换,延迟低至 90ms(取决于硬件支持)。
- 多种加速支持:支持 Nvidia、AMD 和 Intel 显卡加速,提升处理速度。
- 易于训练:即使在较差的显卡上也能快速训练模型,推荐使用 10 分钟以上的低噪音语音数据。
- 模型融合:通过 ckpt 处理标签下的 ckpt 合并功能,可以改变音色。
- 人声伴奏分离:内置 UVR5 模型,能够快速分离人声和伴奏。
- 高音提取算法:采用 InterSpeech2023-RMVPE 算法,防止静音问题,效果显著优于 Crepe_full。
- 易于使用的 WebUI:提供直观的用户界面,简化操作流程。
- 丰富的预训练模型:使用 VCTK 开源数据集中的近 50 小时高质量音频进行预训练,未来还会加入更多高质量的授权歌曲数据集。
如何快速开始
环境准备
-
安装 Python 3.8 或更高版本:
sudo apt-get update sudo apt-get install python3.8
-
安装 PyTorch 相关依赖:
pip install torch torchvision torchaudio
对于不同的显卡架构,可能需要指定对应的 CUDA 版本。例如:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
-
安装其他依赖:
pip install -r requirements.txt
下载和运行
-
克隆项目仓库:
git clone https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI.git cd Retrieval-based-Voice-Conversion-WebUI
-
下载预训练模型: 根据需要下载适合的预训练模型,并放置在指定目录中。例如:
wget https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC1006Nvidia.7z
-
运行 WebUI:
python app.py
使用指南
- 上传音频文件:在 WebUI 界面中,选择需要转换的音频文件。
- 选择预训练模型:从下拉菜单中选择合适的预训练模型。
- 调整参数:根据需要调整转换参数,如音调、响度等。
- 开始转换:点击“开始转换”按钮,等待处理完成后下载转换后的音频文件。
总结
Retrieval-based Voice Conversion WebUI 是一个功能强大且易于使用的语音转换工具。通过其高效的语音处理算法和直观的用户界面,用户可以快速实现高质量的语音转换。无论是用于实时变声还是离线处理,该工具都能提供卓越的性能和灵活性。如果你对语音转换技术感兴趣,不妨试试这个开源项目,体验其强大的功能和便捷的操作。