Aivis:AI语音模仿系统。
Aivis是一个AI语音模仿系统,它利用深度学习和神经网络技术来模仿特定人的声音。这种系统通常涉及以下几个关键步骤和技术:
-
声音采集:首先,需要收集目标人物的声音样本。这些样本可以是录音、演讲、对话等,越多越好,以便系统能够学习到更全面的声音特征。
-
特征提取:系统会对收集到的声音样本进行分析,提取关键的声音特征,如音调、音色、语速、节奏等。这些特征是模仿声音的基础。
-
神经网络训练:使用深度学习模型,如卷积神经网络(CNN)或生成对抗网络(GAN),来训练系统。这些模型会学习如何从输入的声音特征生成类似的声音输出。
-
声音合成:一旦模型被训练好,就可以用它来合成新的声音。输入一段文本,系统会根据训练好的模型生成与目标人物声音相似的语音。
-
优化和调整:合成的声音可能需要进一步的优化和调整,以确保其自然度和真实感。这可能包括调整音调、音量、语速等参数。
Aivis系统的应用场景非常广泛,包括但不限于:
- 娱乐产业:为电影、动画、视频游戏等提供角色配音。
- 虚拟助手:创建具有特定声音特征的虚拟助手,提供更个性化的服务。
- 语音恢复:帮助失去声音能力的人恢复或模仿他们的声音。
- 语言学习:模仿特定语言的发音,帮助学习者提高语言技能。
Aivis系统的开发和应用需要考虑到伦理和法律问题,特别是关于隐私、版权和身份模仿的方面。开发者和使用者都需要确保遵守相关法律法规,尊重个人的声音权利。
请注意,Aivis可能是一个特定的产品或服务名称,具体的功能和技术细节可能会有所不同。如果需要更详细的信息,建议直接查阅该系统的官方文档或联系开发者。
项目简介
Aivis 是一款用于为 Bert-VITS2 创建、学习和推断数据集的一体化工具,它可以生成高质量、情感丰富的语音。
通常、専用に作成された音声コーパス以外の音源から学習用データセットを作成するには、膨大な手間と時間がかかります。
通常,从专门创建的语音语料库之外的声源创建训练数据集需要大量的精力和时间。
Aivis 使用 AI 尽可能自动化从常见声源创建数据集的过程,并进一步减少通过 Web UI 创建数据集所需的工作量和时间,使最终的手动注释工作变得轻松显着减少。
此外,Bert-VITS2 中的模型训练和推理(启动 Web UI)可以通过单个简单命令执行。
尽管这取决于原始声源的数量、质量和说话风格,如上面的示例音频所示,但可以生成质量与使用专门创建的语音语料库训练的模型相当的语音。
Bert-VITS2 的预训练模型本身的性能似乎非常高,在我的环境中,即使是在使用 Aivis 创建的不到 7 分钟的数据集上训练的模型也可以产生清晰且富有情感的声音,且语音质量非常相似。都结束了。
Note
在 Aivis,我们使用 Bert-VITS2 的分叉版本,它已经过详细调整以适应实际应用。
到目前为止,我们还没有改变学习/推理算法。它与原来的 Bert-VITS2(日语-Extra 分支)相同,只是 Web UI 已翻译为日语,并且可以自动下载学习所需的模型。
安装
仅在 Linux (Ubuntu 20.04 LTS) x64 上测试。
CUDA / cuDNN相关库(.so)在基本 poetry install 时安装为pip轮,因此似乎不需要单独安装CUDA / cuDNN。
我们计划进行调整,使其在一定程度上可以在 Windows 上运行,但我们不推荐它,因为我们尚未确认其运行情况。在 Windows 上使用 WSL2。
Note
由于我手头没有环境,所以无法用WSL2验证运行情况,但收到了运行报告。
使用 WSL2 运行时,您需要 Windows 11 或 Windows 10(21H2 或更高版本)并增加对 NVIDIA GPU 和 CUDA 的支持。
请注意,NVIDIA GPU 驱动程序仅需要在 Windows 端安装。不要将其安装在 WSL2 侧。
当然,Aivis 需要 NVIDIA GPU 才能运行。
已确认使用 Geforce GTX 1080 (VRAM 8GB) 进行操作。您可能需要至少 8GB VRAM(我想要一个具有 12GB VRAM 的显卡…)。
Non-Docker
如果不使用Docker,则必须提前安装Git、Python 3.11、Poetry、FFmpeg。
如果要将之前安装的环境更新到最新版本,请运行以下命令。
Docker
使用Docker时,必须提前安装Git和Docker。
与不使用 Docker 相比,它还没有经过太多测试,因此可能无法正常工作。
如果要将之前安装的环境更新到最新版本,请运行以下命令。