SVC(音色转换)模型的制作和推理教程其实在站内外都有,本文将重点讲解如何制作数据集以及进行推理,并提供一些有用的工具和技巧。

数据集制作:

无论是sovits还是diff-svc,为了获得比较好的效果,都建议使用1000条以上或2小时以上的语音(单声道wav格式并且采样率尽可能高)。每条语音尽量控制在2-15秒左右的长度,可以使用自动切片机(audio-slicerUI: https://github.com/flutydeer/audio-slicer)对长音频进行切割。如果游戏角色语音过少,可以考虑使用代餐,但数据集音频质量必须要高于音频数量。在制作数据集时,尽量去除底噪和混响,如果使用歌声作为数据集,还需要考虑混响的问题。使用AU进行降噪即可,如果数据集来源并不统一,可能需要使用AU进行响度匹配。此外,如果无法保证数据集处于较高的质量水平,训练sovits模型是更好的选择,因为diff-svc对数据集质量的要求更高。

推理:

要推理的歌曲需要使用UVR5来分离人声和伴奏,也可以结合AU反相去除伴奏。我是通过以下步骤实现的:首先使用4_HP-Vocal提取人声,然后再用5_HP-Karaoke处理一次以获得更干净的人声。分离伴奏时,直接使用5_HP-Karaoke即可。在进行推理时,使用GUI会更方便,我推荐站内纳鲁塞-缪-希娜卡纳大佬的MoeSS和SovitsGradio。将分离好的人声导入工具中,按需调整音高(混音时伴奏也要升降调),推理后保存即可。如果试听推理好的人声没问题,就可以和伴奏一起导入AU或其他混音软件进行降噪和添加混响。需要的话,可以进一步调整混音,最后导出保存就完成了。