Aivis：AI语音模仿系统

Aivis：AI语音模仿系统

2024-12-27 03:50

Aivis：AI语音模仿系统。

Aivis：AI语音模仿系统

Aivis是一个AI语音模仿系统，它利用深度学习和神经网络技术来模仿特定人的声音。这种系统通常涉及以下几个关键步骤和技术：

Aivis系统的应用场景非常广泛，包括但不限于：

Aivis系统的开发和应用需要考虑到伦理和法律问题，特别是关于隐私、版权和身份模仿的方面。开发者和使用者都需要确保遵守相关法律法规，尊重个人的声音权利。

请注意，Aivis可能是一个特定的产品或服务名称，具体的功能和技术细节可能会有所不同。如果需要更详细的信息，建议直接查阅该系统的官方文档或联系开发者。

项目简介

Aivis 是一款用于为 Bert-VITS2 创建、学习和推断数据集的一体化工具，它可以生成高质量、情感丰富的语音。

通常、専用に作成された音声コーパス以外の音源から学習用データセットを作成するには、膨大な手間と時間がかかります。
通常，从专门创建的语音语料库之外的声源创建训练数据集需要大量的精力和时间。

Aivis 使用 AI 尽可能自动化从常见声源创建数据集的过程，并进一步减少通过 Web UI 创建数据集所需的工作量和时间，使最终的手动注释工作变得轻松显着减少。

此外，Bert-VITS2 中的模型训练和推理（启动 Web UI）可以通过单个简单命令执行。

尽管这取决于原始声源的数量、质量和说话风格，如上面的示例音频所示，但可以生成质量与使用专门创建的语音语料库训练的模型相当的语音。

Bert-VITS2 的预训练模型本身的性能似乎非常高，在我的环境中，即使是在使用 Aivis 创建的不到 7 分钟的数据集上训练的模型也可以产生清晰且富有情感的声音，且语音质量非常相似。都结束了。

Note

在 Aivis，我们使用 Bert-VITS2 的分叉版本，它已经过详细调整以适应实际应用。

到目前为止，我们还没有改变学习/推理算法。它与原来的 Bert-VITS2（日语-Extra 分支）相同，只是 Web UI 已翻译为日语，并且可以自动下载学习所需的模型。

安装

仅在 Linux (Ubuntu 20.04 LTS) x64 上测试。
CUDA / cuDNN相关库（.so）在基本 poetry install 时安装为pip轮，因此似乎不需要单独安装CUDA / cuDNN。

我们计划进行调整，使其在一定程度上可以在 Windows 上运行，但我们不推荐它，因为我们尚未确认其运行情况。在 Windows 上使用 WSL2。

Note

由于我手头没有环境，所以无法用WSL2验证运行情况，但收到了运行报告。

使用 WSL2 运行时，您需要 Windows 11 或 Windows 10（21H2 或更高版本）并增加对 NVIDIA GPU 和 CUDA 的支持。

请注意，NVIDIA GPU 驱动程序仅需要在 Windows 端安装。不要将其安装在 WSL2 侧。

当然，Aivis 需要 NVIDIA GPU 才能运行。
已确认使用 Geforce GTX 1080 (VRAM 8GB) 进行操作。您可能需要至少 8GB VRAM（我想要一个具有 12GB VRAM 的显卡…）。

Non-Docker
如果不使用Docker，则必须提前安装Git、Python 3.11、Poetry、FFmpeg。

如果要将之前安装的环境更新到最新版本，请运行以下命令。

Docker

使用Docker时，必须提前安装Git和Docker。

与不使用 Docker 相比，它还没有经过太多测试，因此可能无法正常工作。

如果要将之前安装的环境更新到最新版本，请运行以下命令。