SVC模型（音色转换）的制作和推理教程(sovits还是diff-svc对比)

2023-03-31懒人云技术支持3005

- N +

SVC（音色转换）模型的制作和推理教程其实在站内外都有，本文将重点讲解如何制作数据集以及进行推理，并提供一些有用的工具和技巧。

数据集制作：

无论是sovits还是diff-svc，为了获得比较好的效果，都建议使用1000条以上或2小时以上的语音（单声道wav格式并且采样率尽可能高）。每条语音尽量控制在2-15秒左右的长度，可以使用自动切片机（audio-slicerUI: https://github.com/flutydeer/audio-slicer）对长音频进行切割。如果游戏角色语音过少，可以考虑使用代餐，但数据集音频质量必须要高于音频数量。在制作数据集时，尽量去除底噪和混响，如果使用歌声作为数据集，还需要考虑混响的问题。使用AU进行降噪即可，如果数据集来源并不统一，可能需要使用AU进行响度匹配。此外，如果无法保证数据集处于较高的质量水平，训练sovits模型是更好的选择，因为diff-svc对数据集质量的要求更高。

推理：

要推理的歌曲需要使用UVR5来分离人声和伴奏，也可以结合AU反相去除伴奏。我是通过以下步骤实现的：首先使用4_HP-Vocal提取人声，然后再用5_HP-Karaoke处理一次以获得更干净的人声。分离伴奏时，直接使用5_HP-Karaoke即可。在进行推理时，使用GUI会更方便，我推荐站内纳鲁塞-缪-希娜卡纳大佬的MoeSS和SovitsGradio。将分离好的人声导入工具中，按需调整音高（混音时伴奏也要升降调），推理后保存即可。如果试听推理好的人声没问题，就可以和伴奏一起导入AU或其他混音软件进行降噪和添加混响。需要的话，可以进一步调整混音，最后导出保存就完成了。

3人赞二维码打赏

标签：未定义