100字范文 > 应用唤醒方法装置存储介质及电子设备与流程

应用唤醒方法装置存储介质及电子设备与流程

时间：2020-04-04 14:00:51

本申请涉及语音处理技术领域，具体涉及一种应用唤醒方法、装置、存储介质及电子设备。

背景技术：

目前，随着语音识别技术的发展，电子设备(比如手机、平板电脑等)通过运行的语音交互应用可与用户进行语音交互，比如，用户可以说出“我要听**歌曲”，则语音交互应用对用户的语音进行识别，并识别出用户想要听**歌曲的意图之后，即播放**歌曲。可以理解的是，用户与电子设备进行语音交互的前提是唤醒语音交互应用，然而，在实际使用环境中，往往存在各种噪声，使得语音交互应用的唤醒率较低。

技术实现要素：

本申请实施例提供了一种应用唤醒方法、装置、存储介质及电子设备，能够提高语音交互应用的唤醒率。

第一方面，本申请实施例提供了一种应用唤醒方法，应用于电子设备，所述电子设备包括两个麦克风，所述应用唤醒方法包括：

通过所述两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

根据所述背景音频数据对两路所述音频数据进行回声消除处理，得到回声消除后的两路音频数据；

对所述回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

对所述增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对所述增强音频数据的文本特征以及声纹特征进行二级校验；

若二级校验通过，则唤醒语音交互应用。

第二方面，本申请实施例提供了一种应用唤醒装置，应用于电子设备，所述电子设备包括两个麦克风，所述应用唤醒装置包括：

音频采集模块，用于通过所述两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

回声消除模块，用于根据所述背景音频数据对两路所述音频数据进行回声消除处理，得到回声消除后的两路音频数据；

波束形成模块，用于对所述回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

音频校验模块，用于对所述增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对所述增强音频数据的文本特征以及声纹特征进行二级校验；

应用唤醒模块，用于在二级校验通过时，唤醒语音交互应用。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在包括两个麦克风的电子设备运行时，使得所述电子设备执行本申请实施例提供的应用唤醒方法。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括处理器、存储器和两个麦克风，所述存储器储存有计算机程序，所述处理器通过调用所述处理器，用于执行本申请实施例提供的应用唤醒方法。

本申请实施例中，电子设备包括两个麦克风，其可以通过两个麦克风采集得到两路音频数据，以及获取到音频采集期间所播放的背景音频数据；然后，根据背景音频数据对两路音频数据进行回声消除处理，以消除自噪声；然后，对回声消除后的两路音频数据进行波束形成处理，以消除外部噪声，得到增强音频数据；然后，对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对增强音频数据的文本特征以及声纹特征进行二级校验；最后，若二级校验通过，则唤醒语音交互应用，从而实现电子设备与用户之间的语音交互。由此，本申请能够排除自噪声和外部噪声的干扰，并利用两级校验确保校验准确性，达到提高语音交互应用唤醒率的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的应用唤醒方法的一流程示意图。

图2是本申请实施例中两个麦克风的设置位置示意图。

图3是本申请实施例中训练声纹特征提取模型的流程示意图。

图4是本申请实施例中提取的语谱图的示意图。

图5是本申请实施例提供的应用唤醒方法的另一流程示意图。

图6是本申请实施例提供的应用唤醒装置的结构示意图。

图7是本申请实施例提供的电子设备的结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例首先提供一种应用唤醒方法，该应用唤醒方法的执行主体可以是本申请实施例提供的电子设备，该电子设备包括两个麦克风，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的应用唤醒方法的流程示意图。该应用唤醒方法应用于本申请提供的电子设备，该电子设备包括两个麦克风，如图1所示，本申请实施例提供的应用唤醒方法的流程可以如下：

在101中，通过两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据。

比如，电子设备所包括的两个麦克风背靠背设置且间隔预设距离，其中，两个麦克风背靠背设置是指这两个麦克风的拾音孔朝向相反。比如，请参照图2，电子设备包括两个麦克风，分别为设置在电子设备下侧边的麦克风1和设置在电子设备上侧边的麦克风2，其中，麦克风1的拾音孔朝下，麦克风2的拾音孔朝上，且麦克风2和麦克风1的连线与电子设备左/右侧边平行。此外，电子设备所包括的两个麦克风可以为无指向性麦克风(或者说，全指向性麦克风)。

本申请实施例中，电子设备可以在播放音视频期间，通过背靠背设置的两个麦克风进行声音采集，从而采集得到两路相同时长的音频数据。此外，电子设备还获取音频采集期间播放的音频数据，可以是独立的音频数据，比如播放的音频文件、歌曲等，还可以是附加在视频数据中的音频数据等。应当说明的是，为便于区分进行声音采集所得到的音频数据以及音频采集期间所播放的音频数据，本申请将获取到音频采集期间播放的音频数据记为背景音频数据。

在102中，根据背景音频数据对两路音频数据进行回声消除处理，得到回声消除后的两路音频数据。

应当说明的是，电子设备在播放音视频期间通过两个麦克风进行声音采集，将会采集得到其播放背景音频数据的声音，即回声(或称自噪声)。本申请中，为了消除采集得到的两路音频数据中的回声，进一步根据背景音频数据，采用回声消除算法对两路音频数据进行回声消除处理，以消除两路音频数据中的回声，得到回声消除后的两路音频数据。应当说明的是，本申请实施例中对于采用何种回声消除算法不做具体限制，可由本领域普通技术人员根据实际需要选择。

比如，电子设备可以对背景音频数据进行反相位处理，得到反相位的背景音频数据，然后将反相位的背景音频数据分别与两路音频数据进行叠加，以消除两路音频数据中的回声，得到回声消除后的两路音频数据。

通俗的说，以上进行的回声消除处理消除了音频数据中携带的自噪声。

在103中，对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据。

电子设备在完成对两路音频数据的回声消除处理，得到回声消除后的两路音频数据之后，进一步对回声消除后的两路音频数据做波束形成处理，得到一路信噪比更高的音频数据，记为增强音频数据。

通俗的说，以上进行的波束形成处理消除了音频数据中携带的外部噪声。至此，电子设备通过对采集得到的两路音频数据进行的回声消除处理以及波束形成处理，得到了消除了自噪声和外部噪声的增强音频数据。

在104中，对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对增强音频数据的文本特征以及声纹特征进行二级校验。

如上所述，增强音频数据相较于采集的原始两路音频数据消除了自噪声和外部噪声，其具有较高的信噪比。此时，电子设备进一步对增强音频数据的文本特征和声纹特征进行两级校验，其中，电子设备基于第一唤醒算法对增强音频数据的文本特征以及声纹特征进行一级校验，若一级校验通过，则电子设备基于第二唤醒算法对增强音频数据的文本特征以及声纹特征进行二级校验。

应当说明的是，在本申请实施例中，无论是对增强音频数据的文本特征以及声纹特征所进行的一级校验还是二级校验，均是校验增强音频数据中是否包括预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)说出的预设唤醒词，若增强音频数据中包括预设用户说出的预设唤醒词，则增强音频数据的文本特征以及声纹特征校验通过，否则校验不通过。比如，增强音频数据包括了预设用户设置的预设唤醒词，且该预设唤醒词由预设用户说出，则增强音频数据的文本特征以及声纹特征将校验通过。又比如，增强音频数据包括了预设用户之外的其他用户说出的预设唤醒词，或者增强音频数据不包括任何用户说出的预设唤醒词时，将校验失败(或者说未校验通过)。

此外，还应当说明的是，在本申请实施例中，电子设备所采用的第一唤醒算法和第二唤醒算法不同。比如，第一语音唤醒算法为基于高斯混合模型的语音唤醒算法，第二语音唤醒算法为基于神经网络的语音唤醒算法。

在105中，若二级校验通过，则唤醒语音交互应用。

其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

基于以上描述，本领域普通技术人员可以理解的是，在对增强音频数据的的二级校验通过时，说明当前有预设用户说出了预设唤醒词，此时唤醒语音交互应用，实现电子设备与用户之间的语音交互。

由上可知，本申请实施例中，电子设备可以通过两个麦克风采集得到两路音频数据，以及获取到音频采集期间所播放的背景音频数据；然后，根据背景音频数据对两路音频数据进行回声消除处理，以消除自噪声；然后，对回声消除后的两路音频数据进行波束形成处理，以消除外部噪声，得到增强音频数据；然后，对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对增强音频数据的文本特征以及声纹特征进行二级校验；最后，若二级校验通过，则唤醒语音交互应用，从而实现电子设备与用户之间的语音交互。由此，本申请能够排除自噪声和外部噪声的干扰，并利用两级校验确保校验准确性，达到提高语音交互应用唤醒率的目的。

在一实施例中，“根据背景音频数据对两路音频数据进行回声消除处理”，包括：

(1)获取初始的自适应滤波器系数，根据背景音频数据以及音频数据迭代更新初始的自适应滤波器系数，得到目标自适应滤波器系数；

(2)根据目标自适应滤波器系数以及对音频数据进行回声消除处理。

本申请实施例中，电子设备在根据背景音频数据对两路音频数据进行回声消除处理时，以下以对一路音频数据的回声消除处理为例进行说明。

其中，电子设备首先获取到初始的自适应滤波器系数，然后根据背景音频数据以及一路音频数据对初始的自适应滤波器系数进行迭代更新，得到目标自适应滤波器系数。然后，电子设备根据迭代更新得到的目标自适应滤波器系数估计该路音频数据中携带的回声音频数据，从而消除该路音频数据中携带的回声音频数据，完成对该路音频数据的回声消除处理，如下公式所示：

X’＝X-WT*X；

其中，X’表示回声消除后的音频数据，X表示回声消除前的音频数据，W表示目标自适应滤波器系数，T表示转置。

在一实施例中，“根据背景音频数据以及音频数据迭代更新初始的自适应滤波器系数，得到目标自适应滤波器系数”，包括：

(1)根据初始的自适应滤波器系数获取当前时刻的自适应滤波器系数；

(2)根据当前时刻的自适应滤波器系数，估计音频数据中携带的对应当前时刻的回声音频数据；

(3)根据背景音频数据以及估计得到的回声音频数据，获取当前时刻的误差音频数据；

(4)识别当前时刻的自适应滤波器系数的活跃部分，根据当前时刻的误差音频数据更新当前时刻的自适应滤波器系数的活跃部分，并调整当前时刻的自适应滤波器系数的阶数，得到下一时刻的自适应滤波器系数。

以下以一次更新过程中说明如何迭代更新初始的自适应滤波器系数。

其中，当前时刻并不特指某一时刻，而是代指对初始的自适应滤波器系数进行一次更新的时刻。

以对初始的自适应滤波器系数进行的第一次更新为例，电子设备获取到初始的自适应滤波器系数，将其作为当前时刻k的自适应滤波器系数。比如，获取到当前时刻k的自适应滤波器系数为W(k)＝[w0,w1,w3...wL-1]T，其长度为L。

然后，电子设备根据当前时刻k的自适应滤波器系数，估计音频数据中携带对应当前时刻的回声音频数据，如下公式所示：

其中，表示估计得到的对应当前时刻k的回声音频数据，x(k)表示音频数据对应当前时刻k的部分。

然后，电子设备根据背景音频数据对应当前时刻k的部分以及估计得到的回声音频数据，获取当前时刻k的误差音频数据，如下公式所示：

其中，e(k)表示当前时刻k的误差音频数据，r(k)表示背景音频数据对应当前时刻k的部分。

应当说明的是，较大的滤波器阶数会增加计算复杂度，而较小的滤波器阶数则无法完全收敛回声。本申请中考虑到自适应滤波器系数很多都是0，只有一小部分起到迭代更新的作用，因此，可以仅对自适应滤波器的活跃部分进行迭代更新，并实时调整自适应滤波器的阶数。

相应的，在本申请实施例中，电子设备在获取到当前时刻的误差音频数据之后，进一步识别出当前时刻k的自适应滤波器系数的活跃部分，从而根据当前时刻的误差音频数据更新当前时刻的自适应滤波器系数的活跃部分，如下公式所示：

W(k+1)＝W(k)+ux(k)e(k)；

其中，u表示预设的收敛步长，可由本领域普通技术人员根据实际需要进行设置，本申请实施例对此不做具体限制。需要强调的是，在对当前时刻k的自适应滤波器系数W(k)进行更新时，仅更新其活跃部分。比如，W(k)＝[w0,w1,w3...wL-1]T，其中[w0,w1,w3...wL-3]被确定为活跃部分，则电子设备按照如上公式对[w0,w1,w3...wL-3]进行更新。

另外，电子设备还根据识别出的活跃部分调整当前时刻的自适应滤波器系数的阶数，从而得到下一时刻的自适应滤波器系数W(k+1)。

在一实施例中，“识别当前时刻的自适应滤波器系数的活跃部分”，包括：

(1)将当前时刻的自适应滤波器系数划分为等长度的多个子滤波器系数；

(2)由后向前的顺序获取各子滤波器系数的平均值及方差，将平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数及其之前的子滤波器系数确定为活跃部分；

调整当前时刻的自适应滤波器系数的阶数，包括：

(3)判断首个子滤波器系数是否为最后一个子滤波器系数，是则增加当前时刻的自适应滤波器系数的阶数，否则减少当前时刻的自适应滤波器系数的阶数。

本申请实施例中，电子设备在识别当前时刻的自适应滤波器系数的活跃部分时，首先将当前时刻的自适应滤波器系数划分为等长度(该长度大于1)的多个子滤波器系数，比如，电子设备将当前时刻的自适应滤波器系数W＝[w0,w1,w2...wL-1]T划分为等长度的M个子滤波器系数，每个子滤波器系数的长度为L/M，则第m个子滤波器系数Wm＝[wmL/M,wmL/M+1,wmL/M+2…w(m+1)L/M]T，m的取值范围为[0，M]。

然后，电子设备由后向前的顺序获取各子滤波器系数的平均值及方差，即首先获取第M个子滤波器系数的平均值及方差，再获取第M-1个子滤波器系数的平均值及方案，直至获取到平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数，将该首个子滤波器系数及其之前的子滤波器系数确定为当前时刻的自适应滤波器系数的活跃部分。

其中，预设平均值和预设方差可由本领域普通技术人员取经验调试值，本申请实施例对此不做具体限制，比如，本申请实施例中，可以取预设平均值为0.000065，取预设方差为0.003。

另外，在调整当前时刻的自适应滤波器系数的阶数，电子设备可以判断前述首个子滤波器系数是否为最后一个子滤波器系数，是则说明当前时刻的自适应滤波器系数的阶数不够，增加当前时刻的自适应滤波器系数的阶数，否则说明当前时刻的自适应滤波器系数的阶数足够，可以减少当前时刻的自适应滤波器系数的阶数。

其中，对于增加或减少阶数的变化量，可由本领域普通技术人员根据实际需要取经验值，本申请实施例对此不做具体限制。

在一实施例中，“对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据”，包括：

采用预设波束形成算法分别在多个预设角度对回声消除后的两路音频数据进行波束形成处理，得到多个增强音频数据。

其中，本申请实施例中，相对于电子设备的麦克风设置有多个预设角度，比如，电子设备在与用户进行语音交互的过程中，对用户语音的来波角度进行统计，得到用户使用概率达到预设概率的多个来波角度，将前述多个来波角度作为多个预设角度。

由此，电子设备即可预设波束形成算法分别在多个预设角度对回声消除后的两路音频数据进行波束形成处理，得到多个增强音频数据。

比如，假设设置有3个预设角度，分别为θ1，θ2和θ3，可以采用GSC算法进行波束形成处理，由于GSC算法需要预先进行波束形成角度的估计，电子设备将将θ1，θ2和θ3作为GSC算法估计得到的波束形成角度，采用GSC算法分别针对θ1，θ2和θ3进行波束形成处理，得到3路增强音频数据。

如上所述，本申请实施例中使用预设角度代替角度估计的波束形成角度，无需进行费时的角度估计，能够提高波束形成的整体效率。

在一实施例中，“对增强音频数据的文本特征以及声纹特征进行一级校验，”包括：

(1)提取各预设角度对应的增强音频数据的梅尔频率倒谱系数；

(2)调用与预设文本相关的目标声纹特征模型对提取的各梅尔频率倒谱系数进行匹配；

(3)若存在匹配的梅尔频率倒谱系数，则判定一级校验通过；

其中，目标声纹特征模型由与预设文本相关的高斯混合通用背景模型根据预设音频数据的梅尔频率倒谱系数自适应得到，预设音频数据为预设用户说出预设文本的音频数据。

以下对一级唤醒算法进行说明。

应当说明的是，本申请实施例中预先训练与预设文本相关的高斯混合通用背景模型。其中，预设文本即以上提及的预设唤醒词。比如，可以预先采集多人(比如200人)说出预设唤醒词的音频数据，然后分别提取这些音频数据的梅尔频率倒谱系数，再根据这些音频数据的梅尔频率倒谱系数训练得到一个与预设文本(即预设唤醒词)相关的高斯混合通用背景模型。

然后，对高斯混合通用背景模型做进一步训练，其中，由高斯混合通用背景模型根据预设音频数据的梅尔频率倒谱系数进行自适应处理(比如最大后验概率MAP，最大似然线性回归MLLR等自适应算法)，预设音频数据为预设用户说出预设文本(即预设唤醒词)的音频数据，由此，使得高斯混合通用背景模型的每个高斯分布向预设用户对应的梅尔频率倒谱系数靠近，使得高斯混合通用背景模型携带预设用户的声纹特征，并将这个携带了预设用户的声纹特征的高斯混合通用背景模型记为目标声纹特征模型。

由此，电子设备在对增强音频数据的文本特征以及声纹特征进行一级校验时，分别提取各预设角度对应的增强音频数据的梅尔频率倒谱系数，然后调用与预设文本相关的目标声纹特征模型分别对提取的各梅尔频率倒谱系数进行匹配，其中，电子设备将提取的各梅尔频率倒谱系数输入目标声纹特征模型中，由目标声纹特征模型对输入的梅尔频率倒谱系数进行识别，并输出一个分值，当输出的分值达到预设阈值时，即可判定输入的梅尔频率倒谱系数与目标声纹特征模型匹配，否则不匹配。比如，本申请实施例中，目标声纹特征模型的输出分值的区间为[0,1]，预设阈值配置为0.28，也即是当输入目标声纹特征模型的梅尔频率倒谱系数所对应的分值达到0.28时，电子设备将判定该梅尔频率倒谱系数与目标声纹特征模型匹配。

电子设备在调用与预设文本相关的目标声纹特征模型对提取的各梅尔频率倒谱系数进行匹配之后，若存在匹配的梅尔频率倒谱系数，则电子设备判定一级校验通过。

在一实施例中，“对增强音频数据的文本特征以及声纹特征进行二级校验”，包括：

(1)将前述预设角度对应的增强音频数据划分为多个子音频数据；

(2)根据与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

(3)获取各声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设音频数据的声纹特征向量；

(4)根据各子音频数据对应的相似度，校验前述预设角度对应的增强音频数据文本特征以及声纹特征；

(5)若存在校验通过的预设角度对应的增强音频数据，则判定二级校验通过。

以下对二级唤醒算法进行说明。

本申请实施例中，考虑到增强音频数据可能并不仅包括预设唤醒词，比如预设唤醒词为“小欧小欧”，而增强音频数据为“你好小欧小欧”。为此，本申请实施例中，根据预设唤醒词的长度，将语音部分划分为多个子音频数据，其中，各子音频数据的长度大于或等于预设唤醒词的长度，且相邻两个子音频数据具有重合部分，对于重合部分的长度可由本领域普通技术人员根据实际需要设置，比如，本申请实施例中设置为子音频数据长度的25％。

应当说明的是，本申请实施例中还预先训练有与预设文本(即预设唤醒词)相关的声纹特征提取模型。比如，本申请实施例中训练基于卷积神经网络的声纹特征提取模型，如图3所示，预先采集多人(比如200人)说出预设唤醒词的音频数据，然后对这些音频数据进行端点检测，分割出其中的预设唤醒词部分，然后对分割出的预设唤醒词部分进行预处理(比如高通滤波)和加窗，再进行傅里叶变换(比如短时傅里叶变换)后计算其能量密度，生成灰度的语谱图(如图4所示，其中横轴表示时间，纵轴表示频率，灰度值表示能量值)，最后，利用卷积神经网络对生成的语谱图进行训练，生成与预设文本相关的声纹特征提取模型。另外，本申请实施例中还提取预设用户说出预设唤醒词(即预设文本)的音频数据的语谱图，并输入到之前训练的声纹特征提取模型中，经过声纹特征提取模型的多个卷积层、池化层以及全连接层后，将输出对应的一组特征向量，将其记为目标声纹特征向量。

相应的，电子设备将前述预设角度对应的增强音频数据划分为多个子音频数据之后，分别提取各子音频数据的语谱图。其中，对于如何提取语谱图，此处不再赘述，具体可参照以上相关描述。在提取到前述多个子音频数据的语谱图之后，电子设备分别将前述多个子音频数据的语谱图输入到之前训练的声纹特征提取模型，从而提取得到各子音频数据的声纹特征向量。

在提取得到各子音频数据的声纹特征向量之后，电子设备分别获取各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，然后，根据各子音频数据对应的相似度来校验前述预设角度对应的增强音频数据的文本特征以及声纹特征。比如，电子设备可以判断是否存在声纹特征向量与目标声纹特征向量之间的相似度达到预设相似度(可由本领域普通技术人员根据实际需要取经验值，比如可以设置为75％)的子音频数据，若存在，则判定前述预设角度对应的增强音频数据的文本特征以及声纹特征。

电子设备在完成对前述预设角度对应的增强音频数据文本特征以及声纹特征的校验之后，若存在校验通过的预设角度对应的增强音频数据，则判定二级校验通过。

在一实施例中，“根据各子音频数据对应的相似度，校验前述预设角度对应的增强音频数据文本特征以及声纹特征”，包括：

根据各子音频数据对应的相似度以及预设的识别函数，校验前述预设角度对应的增强音频数据的文本特征以及声纹特征；

其中，预设的识别函数为γn＝γn-1+f(ln)，γn表示第n个子音频数据对应的识别函数状态值，γn-1表示第n-1个子音频数据对应的识别函数状态值，a为识别函数的修正值，b为预设相似度，ln为第n个子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，若存在大于预设识别函数状态值的γn，则判定前述预设角度对应的增强音频数据的文本特征以及声纹特征通过校验。

应当说明的是，识别函数中a的取值可由本领域普通技术人员根据实际需要取经验值，比如，可以将a取值为1。

另外，识别函数中b的取值与声纹特征提取模型的识别率正相关，根据实际训练得到的声纹特征提取模型的识别率确定b的取值。

另外，预设识别函数状态值也可由本领域普通技术人员根据实际需要取经验值，其取值越大，对语音部分校验的准确度也就也大。

由此，通过该识别函数，即使当增强音频数据中包括预设唤醒词之外的其它信息，也能够准确的对其进行校验。

可选的，在获取各子音频数据的声纹特征向量与目标声纹特征训练之间的相似度时，可按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。

或者，可计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度，对于采用何种特征距离来衡量两个向量之间的相似度，本申请实施例中不做具体限制，比如，可以采用欧几里得距离来衡量子音频数据的声纹特征向量与目标声纹特征向量之间的相似度。

图5为本申请实施例提供的应用唤醒方法的另一流程示意图。该应用唤醒方法应用于本申请提供的电子设备，该电子设备包括两个麦克风，如图5所示，本申请实施例提供的应用唤醒方法的流程可以如下：

在201中，电子设备基于处理器判断其是否处于音视频播放状态，是则转入202，否则转入206。

本申请实施例中，电子设备首先基于处理器判断其是否处于音视频播放状态，比如，以安卓系统为例，电子设备基于处理器接收安卓内部消息，根据该安卓内部消息判断其是否处于音视频播放状态。

在202中，电子设备通过两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据。

在203中，电子设备根据背景音频数据，基于处理器对两路音频数据进行回声消除处理，得到回声消除后的两路音频数据。

应当说明的是，电子设备在播放音视频期间通过两个麦克风进行声音采集，将会采集得到其播放背景音频数据的声音，即回声(或称自噪声)。本申请中，为了消除采集得到的两路音频数据中的回声，进一步根据背景音频数据，基于处理器调用回声消除算法对两路音频数据进行回声消除处理，以消除两路音频数据中的回声，得到回声消除后的两路音频数据。应当说明的是，本申请实施例中对于采用何种回声消除算法不做具体限制，可由本领域普通技术人员根据实际需要选择。

比如，电子设备可基于处理器对背景音频数据进行反相位处理，得到反相位的背景音频数据，然后将反相位的背景音频数据分别与两路音频数据进行叠加，以消除两路音频数据中的回声，得到回声消除后的两路音频数据。

通俗的说，以上进行的回声消除处理消除了音频数据中携带的自噪声。

在204中，电子设备基于处理器对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据。

电子设备在完成对两路音频数据的回声消除处理，得到回声消除后的两路音频数据之后，进一步基于处理器对回声消除后的两路音频数据做波束形成处理，得到一路信噪比更高的音频数据，记为增强音频数据。

在205中，电子设备基于处理器对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后基于处理器对增强音频数据的文本特征以及声纹特征进行二级校验，若二级校验通过，则基于处理器唤醒语音交互应用。

如上所述，增强音频数据相较于采集的原始两路音频数据消除了自噪声和外部噪声，其具有较高的信噪比。此时，电子设备进一步基于处理器对增强音频数据的文本特征和声纹特征进行两级校验，其中，基于处理器调用第一唤醒算法对增强音频数据的文本特征以及声纹特征进行一级校验，若一级校验通过，则基于处理器调用第二唤醒算法对增强音频数据的文本特征以及声纹特征进行二级校验。

在206中，电子设备通过任一麦克风采集得到一路音频数据。

电子设备在未播放音视频期间，通过任一麦克风进行声音采集，得到一路音频数据。

在207中，电子设备基于专用语音识别芯片对前述一路音频数据进行一级校验，并在一级校验通过后基于处理器对前述一路音频数据进行二级校验。

其中，专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

电子设备在采集得到前述一路音频数据之后，基于专用语音识别芯片调用第三唤醒算法对前述一路音频数据进行校验，其中，可以同时校验前述一路音频数据的文本特征和声纹特征，也可以仅校验前述一路音频数据的文本特征。

比如，电子设备可以基于专用语音识别芯片提取前述一路音频数据的梅尔频率倒谱系数；然后，基于专用语音识别芯片调用与预设文本相关的高斯混合通用背景模型对提取的梅尔频率倒谱系数进行匹配；若匹配成功，则判定前述前述一路音频数据的文本特征校验通过。

在对前述一路音频数据的一级校验通过后，电子设备进一步基于处理器对前述一路音频数据进行二级校验，其中，电子设备在基于处理器对前述一路音频数据进行二级校验时，基于处理器调用第一唤醒算法或第二唤醒算法校验前述一路音频数据的文本特征和声纹特征。

在208中，若二级校验通过，则电子设备基于处理器唤醒语音交互应用。

在对前述一路音频数据的二级校验通过时，电子设备即可基于处理器唤醒语音交互应用，实现电子设备与用户的语音交互。

请参照图6，图6为本申请实施例提供的应用唤醒装置的结构示意图。该应用唤醒装置可以应用于电子设备，该电子设备包括两个麦克风。应用唤醒装置可以包括音频采集模块401、回声消除模块402、波束形成模块403、音频校验模块404以及应用唤醒模块405，其中，

音频采集模块401，用于通过两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

回声消除模块402，用于根据背景音频数据对两路音频数据进行回声消除处理，得到回声消除后的两路音频数据；

波束形成模块403，用于对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

音频校验模块404，用于对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对增强音频数据的文本特征以及声纹特征进行二级校验；

应用唤醒模块405，用于在二级校验通过，唤醒语音交互应用。

在一实施例中，在根据背景音频数据对两路音频数据进行回声消除处理时，回声消除模块402可以用于：

获取初始的自适应滤波器系数，根据背景音频数据以及音频数据迭代更新初始的自适应滤波器系数，得到目标自适应滤波器系数；

根据目标自适应滤波器系数以及对音频数据进行回声消除处理。

在一实施例中，在根据背景音频数据以及音频数据迭代更新初始的自适应滤波器系数，得到目标自适应滤波器系数时，回声消除模块402可以用于：

根据初始的自适应滤波器系数获取当前时刻的自适应滤波器系数；

根据当前时刻的自适应滤波器系数，估计音频数据中携带的对应当前时刻的回声音频数据；

根据背景音频数据以及估计得到的回声音频数据，获取当前时刻的误差音频数据；

识别当前时刻的自适应滤波器系数的活跃部分，根据当前时刻的误差音频数据更新当前时刻的自适应滤波器系数的活跃部分，并调整当前时刻的自适应滤波器系数的阶数，得到下一时刻的自适应滤波器系数。

在一实施例中，在识别当前时刻的自适应滤波器系数的活跃部分时，回声消除模块402可以用于：

将当前时刻的自适应滤波器系数划分为等长度的多个子滤波器系数；

由后向前的顺序获取各子滤波器系数的平均值及方差，将平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数及其之前的子滤波器系数确定为活跃部分；

而在调整当前时刻的自适应滤波器系数的阶数时，回声消除模块402可以用于：

判断首个子滤波器系数是否为最后一个子滤波器系数，是则增加当前时刻的自适应滤波器系数的阶数，否则减少当前时刻的自适应滤波器系数的阶数。

在一实施例中，在对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据时，波束形成模块403可以用于：

采用预设波束形成算法分别在多个预设角度对回声消除后的两路音频数据进行波束形成处理，得到多个增强音频数据。

在一实施例中，在对增强音频数据的文本特征以及声纹特征进行一级校验时，音频校验模块404可以用于：

提取各预设角度对应的增强音频数据的梅尔频率倒谱系数；

调用与预设文本相关的目标声纹特征模型对提取的各梅尔频率倒谱系数进行匹配；

若存在匹配的梅尔频率倒谱系数，则判定一级校验通过；

在一实施例中，在对增强音频数据的文本特征以及声纹特征进行二级校验时，音频校验模块404可以用于：

将前述预设角度对应的增强音频数据划分为多个子音频数据；

根据与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

获取各声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设音频数据的声纹特征向量；

根据各子音频数据对应的相似度，校验前述预设角度对应的增强音频数据文本特征以及声纹特征；

若存在校验通过的预设角度对应的增强音频数据，则判定二级校验通过。

在一实施例中，在根据各子音频数据对应的相似度，校验前述预设角度对应的增强音频数据文本特征以及声纹特征时，音频校验模块404可以用于：

根据各子音频数据对应的相似度以及预设的识别函数，校验前述预设角度对应的增强音频数据的文本特征以及声纹特征；

其中，预设的识别函数为γn＝γn-1+f(ln)，γn表示第n个子音频数据对应的识别函数状态值，γ-1表示第n-1个子音频数据对应的识别函数状态值，a为识别函数的修正值，b为预设相似度，ln为第n个子音频数据的声纹特征向量与目标声纹特征向量之间的相似度，若存在大于预设识别函数状态值的γn，则判定前述预设角度对应的增强音频数据的文本特征以及声纹特征通过校验。

在一实施例中，获取各子音频数据的声纹特征向量与目标声纹特征训练之间的相似度时，音频校验模块404可以用于：

按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度；

或者，计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

本申请实施例提供一种存储介质，其上存储有指令执行程序，当其存储的指令执行程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的应用唤醒方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图7，电子设备包括处理器501、存储器502和麦克风503。

本申请实施例中的处理器501是通用处理器，比如ARM架构的处理器。

存储器502中存储有指令执行程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问，实现如下功能：

通过两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

根据背景音频数据对两路音频数据进行回声消除处理，得到回声消除后的两路音频数据；

对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对增强音频数据的文本特征以及声纹特征进行二级校验；

若二级校验通过，则唤醒语音交互应用。

请参照图8，图8为本申请实施例提供的电子设备的另一结构示意图，与图7所示电子设备的区别在于，电子设备还包括输入单元504和输出单元505等组件。

其中，输入单元504可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元505可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

在本申请实施例中，电子设备中的处理器501会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中，并由处理器501运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

通过两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

根据背景音频数据对两路音频数据进行回声消除处理，得到回声消除后的两路音频数据；

对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

对增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对增强音频数据的文本特征以及声纹特征进行二级校验；

若二级校验通过，则唤醒语音交互应用。

在一实施例中，在根据背景音频数据对两路音频数据进行回声消除处理时，处理器501可以执行：

获取初始的自适应滤波器系数，根据背景音频数据以及音频数据迭代更新初始的自适应滤波器系数，得到目标自适应滤波器系数；

根据目标自适应滤波器系数以及对音频数据进行回声消除处理。

在一实施例中，在根据背景音频数据以及音频数据迭代更新初始的自适应滤波器系数，得到目标自适应滤波器系数时，处理器501可以执行：

根据初始的自适应滤波器系数获取当前时刻的自适应滤波器系数；

根据当前时刻的自适应滤波器系数，估计音频数据中携带的对应当前时刻的回声音频数据；

根据背景音频数据以及估计得到的回声音频数据，获取当前时刻的误差音频数据；

在一实施例中，在识别当前时刻的自适应滤波器系数的活跃部分时，处理器501可以执行：

将当前时刻的自适应滤波器系数划分为等长度的多个子滤波器系数；

而在调整当前时刻的自适应滤波器系数的阶数时，处理器501可以执行：

判断首个子滤波器系数是否为最后一个子滤波器系数，是则增加当前时刻的自适应滤波器系数的阶数，否则减少当前时刻的自适应滤波器系数的阶数。

在一实施例中，在对回声消除后的两路音频数据进行波束形成处理，得到增强音频数据时，处理器501可以执行：

采用预设波束形成算法分别在多个预设角度对回声消除后的两路音频数据进行波束形成处理，得到多个增强音频数据。

在一实施例中，在对增强音频数据的文本特征以及声纹特征进行一级校验时，处理器501可以执行：

提取各预设角度对应的增强音频数据的梅尔频率倒谱系数；

调用与预设文本相关的目标声纹特征模型对提取的各梅尔频率倒谱系数进行匹配；

若存在匹配的梅尔频率倒谱系数，则判定一级校验通过；

在一实施例中，在对增强音频数据的文本特征以及声纹特征进行二级校验时，处理器501可以执行：

将前述预设角度对应的增强音频数据划分为多个子音频数据；

根据与预设文本相关的声纹特征提取模型提取各子音频数据的声纹特征向量；

获取各声纹特征向量与目标声纹特征向量之间的相似度，目标声纹特征向量为预设音频数据的声纹特征向量；

根据各子音频数据对应的相似度，校验前述预设角度对应的增强音频数据文本特征以及声纹特征；

若存在校验通过的预设角度对应的增强音频数据，则判定二级校验通过。

在一实施例中，在根据各子音频数据对应的相似度，校验前述预设角度对应的增强音频数据文本特征以及声纹特征时，处理器501可以执行：

根据各子音频数据对应的相似度以及预设的识别函数，校验前述预设角度对应的增强音频数据的文本特征以及声纹特征；

在一实施例中，获取各子音频数据的声纹特征向量与目标声纹特征训练之间的相似度时，处理器501可以执行：

按照动态时间规整算法计算各子音频数据的声纹特征向量与目标声纹特征向量之间的相似度；

或者，计算各子音频数据的声纹特征向量与目标声纹特征向量之间的特征距离作为相似度。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的应用唤醒方法属于同一构思，在电子设备上可以运行应用唤醒方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的应用唤醒方法而言，本领域普通测试人员可以理解实现本申请实施例的应用唤醒方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如应用唤醒方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种应用唤醒方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

技术特征：

1.一种应用唤醒方法，应用于电子设备，其特征在于，所述电子设备包括两个麦克风，所述应用唤醒方法包括：

通过所述两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

根据所述背景音频数据对两路所述音频数据进行回声消除处理，得到回声消除后的两路音频数据；

对所述回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

对所述增强音频数据的文本特征以及声纹特征进行一级校验，并在一级校验通过后对所述增强音频数据的文本特征以及声纹特征进行二级校验；

若二级校验通过，则唤醒语音交互应用。

2.根据权利要求1所述的应用唤醒方法，其特征在于，所述根据所述背景音频数据对两路所述音频数据进行回声消除处理，包括：

获取初始的自适应滤波器系数，根据所述背景音频数据以及所述音频数据迭代更新所述初始的自适应滤波器系数，得到目标自适应滤波器系数；

根据所述目标自适应滤波器系数对所述音频数据进行回声消除处理。

3.根据权利要求2所述的应用唤醒方法，其特征在于，根据所述背景音频数据以及所述音频数据迭代更新所述初始的自适应滤波器系数，得到目标自适应滤波器系数，包括：

根据所述初始的自适应滤波器系数获取当前时刻的自适应滤波器系数；

根据所述当前时刻的自适应滤波器系数，估计所述音频数据中携带的对应当前时刻的回声音频数据；

根据所述背景音频数据以及所述回声音频数据，获取当前时刻的误差音频数据；

识别所述当前时刻的自适应滤波器系数的活跃部分，根据所述误差音频数据更新所述活跃部分，并调整所述当前时刻的自适应滤波器系数的阶数，得到下一时刻的自适应滤波器系数。

4.根据权利要求3所述的应用唤醒方法，其特征在于，所述识别所述当前时刻的自适应滤波器系数的活跃部分，包括：

将所述当前时刻的自适应滤波器系数划分为等长度的多个子滤波器系数；

由后向前的顺序获取各所述子滤波器系数的平均值及方差，将平均值大于预设平均值且对方差大于预设方差的首个子滤波器系数及其之前的子滤波器系数确定为所述活跃部分；

所述调整所述当前时刻的自适应滤波器系数的阶数，包括：

判断所述首个子滤波器系数是否为最后一个子滤波器系数，是则增加所述当前时刻的自适应滤波器系数的阶数，否则减少所述当前时刻的自适应滤波器系数的阶数。

5.根据权利要求1-4任一项所述的应用唤醒方法，其特征在于，所述对所述回声消除后的两路音频数据进行波束形成处理，得到增强音频数据，包括：

采用预设波束形成算法分别在多个预设角度对所述回声消除后的两路音频数据进行波束形成处理，得到多个增强音频数据。

6.根据权利要求5所述的应用唤醒方法，其特征在于，所述对所述增强音频数据的文本特征以及声纹特征进行一级校验，包括：

提取各预设角度对应的增强音频数据的梅尔频率倒谱系数；

调用与预设文本相关的目标声纹特征模型对提取的各梅尔频率倒谱系数进行匹配；

若存在匹配的梅尔频率倒谱系数，则判定一级校验通过；

其中，所述目标声纹特征模型由与预设文本相关的高斯混合通用背景模型根据预设音频数据的梅尔频率倒谱系数自适应得到，所述预设音频数据为预设用户说出所述预设文本的音频数据。

7.根据权利要求6所述的应用唤醒方法，其特征在于，所述对所述增强音频数据的文本特征以及声纹特征进行二级校验，包括：

将所述预设角度对应的增强音频数据划分为多个子音频数据；

根据与所述预设文本相关的声纹特征提取模型提取各所述子音频数据的声纹特征向量；

获取各所述声纹特征向量与目标声纹特征向量之间的相似度，所述目标声纹特征向量为所述预设音频数据的声纹特征向量；

根据各所述子音频数据对应的相似度，校验所述预设角度对应的增强音频数据文本特征以及声纹特征；

若存在校验通过的预设角度对应的增强音频数据，则判定二级校验通过。

8.一种应用唤醒装置，应用于电子设备，其特征在于，所述电子设备包括两个麦克风，所述应用唤醒装置包括：

音频采集模块，用于通过所述两个麦克风采集得到两路音频数据，以及获取音频采集期间所播放的背景音频数据；

回声消除模块，用于根据所述背景音频数据对两路所述音频数据进行回声消除处理，得到回声消除后的两路音频数据；

波束形成模块，用于对所述回声消除后的两路音频数据进行波束形成处理，得到增强音频数据；

应用唤醒模块，用于在二级校验通过时，唤醒语音交互应用。

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器和两个麦克风，所述存储器储存有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的应用唤醒方法。

10.一种存储介质，其特征在于，当所述存储介质中存储的计算机程序在包括两个麦克风的电子设备运行时，使得所述电子设备执行如权利要求1至7任一项所述的应用唤醒方法。

技术总结

本申请实施例公开了一种应用唤醒方法、装置、存储介质及电子设备，其中，电子设备包括两个麦克风，其可以通过两个麦克风采集得到两路音频数据，以及获取到音频采集期间所播放的背景音频数据；然后，根据背景音频数据对两路音频数据进行回声消除处理，以消除自噪声；然后，对回声消除后的两路音频数据进行波束形成处理，以消除外部噪声，得到增强音频数据；然后，对增强音频数据的文本特征以及声纹特征进行两级校验，并在两级校验通过时唤醒语音交互应用，从而实现电子设备与用户之间的语音交互。由此，本申请能够排除自噪声和外部噪声的干扰，并利用两级校验确保校验准确性，达到提高语音交互应用唤醒率的目的。

技术研发人员：陈喆;刘耀勇;陈岩

受保护的技术使用者：OPPO广东移动通信有限公司

技术研发日：.06.03

技术公布日：.09.06

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。