100字范文 > 人声克隆技术：So-Vits-Svc项目解析

人声克隆技术：So-Vits-Svc项目解析

时间：2019-06-01 04:55:53

SO-VITs-SVC

本文是该系列的第一篇，采用倒序的方式，先从推理过程开始介绍人声克隆的工作流，以及各个模型的功能，之后再去详细介绍各个模型，因此不涉及具体的使用方法，这个官方文档里面已经讲的很清楚了，所以本文主要聚焦于整个项目中对音频数据的预处理、特征提取和最终的推理过程（音频生成的过程）进行介绍，最后放上我制作的两段音频，给大家看看效果。

人声预处理流程人声特征提取流程人声的合成流程Demo展示

1. 预处理阶段

source audio : 是指我们要转换的源音频Vocals.wav : 要通过人声分离软件，过滤出源音频中的纯人声Vocals.wav 44k : 模型只能处理采样率为44k的音频，所以对人声音频进行重采样

2. 特征提取阶段

特征提取流程图如下：

为了完美的复刻人声对源人声的特征提取还是比较丰富的，主要分为下面几类：

预训练模型，通过预训练模型对音频进行特征提取乐理特征，基音频率f0，高音的频率频域特征，频谱/梅尔频谱：mel spectrogram能量特征，音频音量: audio volume增强特征，增加随机噪声后再进行特征提取

2.1 预训练特征提取

预训练模型三选一即可，不同模型，特征表示维度不一样，如果显存较小可以选择低维的特征编码，Contextvec可以选择不同隐藏层的特征表示。

Hubert : 基于BERT改进的HuBERT使用BERT的架构，并做了修改以适应语音序列。HuBERT可以学习出高质量的语音表示，在多种下游任务上都取得了state-of-the-art的结果，如语音情感识别、语言识别、语音生成与理解和人声克隆等。Whisper：是openai提出利用大规模弱监督学习实现了端到端语音识别模型，在少量标注数据的条件下，可以达到很好的识别性能，同时也学习到了语音的高质量表示。其创新之处在于设计的弱监督学习框架，这为利用海量无标注数据提高语音识别系统的鲁棒性提供了一个值得借鉴的范例。Contextvec : 一种新的语音自监督表示学习方法，通过Hubert生成训练标签，通过学生网络来学习音频的表征，其在人声验证和语音理解等任务上达到SOTA的性能，是一种非常有效的语音表示学习框架