100字范文 > 语音数据处理方法装置电子设备及存储介质与流程

语音数据处理方法装置电子设备及存储介质与流程

时间：2021-05-28 00:49:41

本发明涉及人工智能技术领域，尤其涉及一种语音数据处理方法、装置、电子设备及存储介质。

背景技术：

随着科学技术的迅猛发展，智能设备已经拥有了强大的处理能力，使得智能设备在一定程度上能够像人类一样理解自然语言，从而实现了人机交互。自然语言处理过程中一个重要的环节是语义识别，现有的语义识别方法通常是基于固定的语料库实现的，即基于用户输入的语音数据对应的语音识别结果，从语料库中获取对应的语料，基于获取的语料确定语义识别结果。然而，由于用户的口语表达可能缺乏规范性，且同一意思可能采用不同的表达方式等原因，均对智能设备理解自然语言造成障碍，从而导致语义识别的准确率往往不高。

技术实现要素：

本发明实施例提供一种语音数据处理方法、装置、电子设备及存储介质，以解决现有技术中语义识别的准确率低的问题。

第一方面，本发明一实施例提供了一种语音数据处理方法，包括：

对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果；

根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本。

可选地，根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本，具体包括：

从语料库中选取与所述语音识别结果的匹配度高于预设阈值的语料，确定为候选文本；

基于当前对话的语境信息，从所述候选文本中确定出所述语音识别结果对应的预测文本。

可选地，所述基于当前对话的语境信息，从所述候选文本中确定出所述语音识别结果对应的预测文本，具体包括：

若基于当前对话的语境信息确定出至少一个命名实体，将包含所述命名实体的候选文本确定为所述语音识别结果对应的预测文本。

可选地，所述将包含所述命名实体的候选文本确定为所述语音识别结果对应的预测文本，具体包括：

若基于当前对话的语境信息确定出多个命名实体，将包含所述命名实体的数量最多的候选文本确定为所述语音识别结果对应的预测文本。

可选地，还包括：

若基于当前对话的语境信息确定出至少一个命名实体，且所述语料库中不包含所述命名实体对应的语料，在所述语料库中添加所述命名实体对应的语料。

可选地，确定所述语音识别结果对应的预测文本之后，还包括：

基于所述语境信息确定出至少一个第一命名实体；

确定出所述预测文本中包含的至少一个第二命名实体；

计算所述第一命名实体和所述第二命名实体的相似度；

若所述第一命名实体和所述第二命名实体的相似度大于相似度阈值，将所述预测文本中的所述第二命名实体替换为所述第一命名实体。

可选地，还包括：

基于以下至少一种信息确定所述语境信息：所述智能设备当前展示的内容、所述智能设备采集到的信息、以及所述智能设备当前的状态信息。

可选地，确定所述语音识别结果对应的预测文本之后，还包括：

根据所述预测文本和所述语境信息，确定所述预测文本的最终语义识别结果；

根据所述预测文本的最终语义识别结果，确定所述预测文本对应的响应数据。

可选地，根据所述预测文本和所述语境信息，确定所述预测文本的最终语义识别结果，具体包括：

获取所述预测文本对应的语义识别结果；

基于所述语境信息对所述语义识别结果中缺失槽位值的槽位项进行填充，得到最终语义识别结果。

第二方面，本发明一实施例提供了一种语音数据处理装置，包括：

语音识别模块，用于对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果；

预测模块，用于根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本。

可选地，所述预测模块具体用于：

从语料库中选取与所述语音识别结果的匹配度高于预设阈值的语料，确定为候选文本；

基于当前对话的语境信息，从所述候选文本中确定出所述语音识别结果对应的预测文本。

可选地，所述预测模块具体用于：

若基于当前对话的语境信息确定出至少一个命名实体，将包含所述命名实体的候选文本确定为所述语音识别结果对应的预测文本。

可选地，所述预测模块具体用于：

若基于当前对话的语境信息确定出多个命名实体，将包含所述命名实体的数量最多的候选文本确定为所述语音识别结果对应的预测文本。

可选地，还包括语料添加模块，用于：

可选地，所述预测模块还用于：

确定所述语音识别结果对应的预测文本之后，基于所述语境信息确定出至少一个第一命名实体；

确定出所述预测文本中包含的至少一个第二命名实体；

计算所述第一命名实体和所述第二命名实体的相似度；

若所述第一命名实体和所述第二命名实体的相似度大于相似度阈值，将所述预测文本中的所述第二命名实体替换为所述第一命名实体。

可选地，还包括语境信息获取模块，用于：

基于以下至少一种信息确定所述语境信息：所述智能设备当前展示的内容、所述智能设备采集到的信息、以及所述智能设备当前的状态信息。

可选地，还包括语义识别模块，用于：

确定所述语音识别结果对应的预测文本之后，根据所述预测文本和所述语境信息，确定所述预测文本的最终语义识别结果；

根据所述预测文本的最终语义识别结果，确定所述预测文本对应的响应数据。

可选地，所述语义识别模块具体用于：

获取所述预测文本对应的语义识别结果；

基于所述语境信息对所述语义识别结果中缺失槽位值的槽位项进行填充，得到最终语义识别结果。

第三方面，本发明一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

第四方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

第五方面，本发明一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

本发明实施例提供的技术方案，对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果，并获取表征当前对话所处的环境的语境信息，根据语音识别结果和当前对话的语境信息，从预设语料库中，确定语音识别结果对应的预测文本，基于该预测文本获得最终语义识别结果，通过在语音数据处理过程中引入当前对话对应的语境信息，实现随着交互环境的变化动态调整语音识别结果对应的预测文本，提高预测的准确率，从而提高语义识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音数据处理方法的应用场景示意图；

图2为本发明一实施例提供的语音数据处理方法的流程示意图；

图3为本发明一实施例提供的语音数据处理方法的流程示意图；

图4为本发明一实施例提供的语音数据处理方法的流程示意图；

图5为本发明一实施例提供的语音数据处理装置的结构示意图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本发明实施例中涉及的名词进行解释：

语境(contextual definition)，指的是通过一定语言环境以揭示概念在相对关系下的意义。

模态(modality)，用通俗的话说，就是“感官”，多模态即将多种感官融合。机器人操作系统将机器人与人的交互模式定义为“多模态交互”，即通过文字、语音、视觉、动作、环境等多种方式进行人机交互，充分模拟人与人之间的交互方式。

领域(domain)，是指同一类型的数据或者资源，以及围绕这些数据或资源提供的服务，比如天气、音乐、火车票等。

意图(intent)，是通过用户的交互输入识别出的用户所要表达的目的。通常，意图是指对于领域数据的操作，一般以动宾短语来命名，比如询问天气、查找音乐、购买火车票等。

槽位(slot)，是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息。一个槽位与一件事情的处理中所需要获取的一种信息相对应。例如，要想执行查看天气的任务，需要知道地点、时间这些必要的元素，这些必要元素就是槽位。

命名实体(named entity)，就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。命名实体，一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为命名实体。命名实体识别(Named Entities Recognition,NER)，是自然语言处理的一个基础任务，目的是从非结构化的输入文本中抽取出命名实体。NER任务中的常用模型包括生成式模型HMM(Hidden Markov Model，隐马尔可夫模型)、判别式模型CRF(条件随机场(ConditionalRandom Field，条件随机场)等。判别式模型CRF是NER目前的主流模型，它的目标函数不仅考虑输入的状态特征函数，而且还包含了标签转移特征函数。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在人机交互过程中，采用的语音数据处理方法通常是基于固定的语料库实现的，即基于用户输入的语音数据对应的语音识别结果，从语料库中获取对应的语料作为预测文本，然后基于预测文本获取语义识别结果。然而，由于用户的口语表达可能缺乏规范性，且同一意思可能采用不同的表达方式等原因，均对智能设备理解自然语言造成障碍，从而导致语义识别的准确率往往不高。交互过程中，交互环境的变化也会导致同一文本出现完全不同的语义，例如，用户输入的内容为“我想买MAC”，对于男性用户来说MAC可能是电脑，而对于女性用户来说MAC可能是口红。而基于固定的语料库进行语义预测，忽略了交互环境的不同，导致预测文本错误，从而进一步降低了语义识别的准确率。

为此，本发明的发明人考虑到，对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果，并获取表征当前对话所处的环境的语境信息，根据语音识别结果和当前对话的语境信息，从预设语料库中，确定语音识别结果对应的预测文本，基于该预测文本获得最终语义识别结果，通过在语音数据处理过程中引入当前对话对应的语境信息，实现随着交互环境的变化动态调整语音识别结果对应的预测文本，提高预测的准确率，从而提高语义识别的准确率。进一步地，为更加全面准确地获知当前对话所处的环境，可基于智能设备当前展示的内容、智能设备采集到的信息、以及智能设备当前的状态信息等确定语境信息，进一步提高语义识别的准确率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

首先参考图1，其为本发明实施例提供的语音数据处理方法的应用场景示意图。用户10与智能设备11进行交互过程中，智能设备11会持续采集周围的声音，并以语音数据的形式持续上报给服务器12，语音数据中除了包含用户10的说话声，也可能包含智能设备11周围的环境声或其他用户的说话声。服务器12对智能设备11持续上报的语音数据依次进行语音识别处理和语义识别处理，并根据语义识别结果确定出相应的响应数据，并控制智能设备11输出该响应数据，以向用户作出反馈。

这种应用场景下，智能设备11和服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。智能设备11可以为智能音箱、机器人等，也可以为便携设备(例如：手机、平板、笔记本电脑等)，还可以为个人电脑(PC，Personal Computer)。服务器12可以为任何能够提供语音识别服务的一台服务器、若干台服务器组成的服务器集群或云计算中心。

当然，对语音数据的语音识别处理和语义识别处理，以及后续确定响应数据等处理，也可以在智能设备侧执行，本发明实施例中不对执行主体进行限定。为了便于描述，本发明提供的各实施例中均以在服务器侧执行语音处理为例进行说明，在智能设备侧执行语音处理的过程与此类似，此处不再赘述。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

参考图2，本发明实施例提供一种语音数据处理方法，应用于图1所示的服务器侧，包括以下步骤：

S201、对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果。

S202、根据语音识别结果和当前对话的语境信息，从预设语料库中，确定语音识别结果对应的预测文本。

具体实施时，语料库中预先存储有大量具有完整语义的语料，例如，“今天天气怎么样”、“最近上映了哪些电影”、“介绍一下青花瓷”等等。

本发明实施例中的语境信息用于表征当前对话所处的环境，包括但不限于以下至少一种信息：展示信息、用户信息、任务状态信息以及用户偏好信息等。其中，任务状态信息用于表征智能设备所执行的任务以及所述任务进行的情况。具体实施时，可基于以下至少一种信息确定当前的语境信息：智能设备当前展示的内容、智能设备采集到的信息、以及智能设备当前的状态信息等。

本发明实施例中，智能设备当前展示的内容包括智能设备当前在屏幕上展示的文本信息、图像信息以及当前播放的音频信息等多媒体信息。例如，用户想查询附近的美食，智能设备可以在屏幕上展示美食图片、餐厅信息等内容。又如，智能设备为博物馆的导览机器人，智能设备可以在导览过程中，通过屏幕展示展品的图片以及文字解说，同时还可以对文字解说进行语音播报。

具体实施时，可基于智能设备当前展示的内容确定展示信息。具体地，可从智能设备当前展示的内容中识别出命名实体、包含的对象等作为展示信息。

举例说明，当智能设备的屏幕上展示的是文本信息，服务器获取展示的文本信息，并基于命名实体识别、关键字检索或自然语言理解等技术，从展示的文本信息中提取命名实体或识别文本对应的领域或意图信息等作为展示信息。例如，用户问“附近有什么好吃的”，智能设备通过搜索找到“ABC饭店”，并在屏幕上展示“ABC饭店”的信息，当智能设备检测到屏幕上展示的内容发生变化后，将当前展示的内容发送给服务器，服务器从当前展示的内容中获取到命名实体“ABC饭店”作为展示信息，从而获知用户正在浏览“ABC饭店”的相关信息。当用户继续问“饭店有什么推荐菜”或“ABC有什么好吃的”时，基于展示信息“ABC饭店”可知，“饭店有什么推荐菜”中的“饭店”指代的是“ABC饭店”，“ABC有什么好吃的”中的“ABC”指代的是“ABC饭店”。

本发明实施例中，智能设备当前展示的图像信息可以是图片或视频。举例说明，当智能设备当前展示的是图像信息时，服务器获取展示的图像信息，并基于图像识别技术识别图像信息中包含的对象，将识别出的对象作为展示信息。例如，智能设备当前展示的是包含猫的图像，则可以从展示的图像信息中识别“猫”，甚至识别出猫的品种，将“猫”或猫的品种作为展示信息，当用户再次询问“这是什么猫”时，基于展示信息“猫”或猫的品种，可获知用户询问的是智能设备当前展示的图像中的猫。当然，如果图像信息预先携带有标签或者名称，则可以将该标签或名称作为展示信息，例如，图片携带的标签为“青花瓷”或“布偶猫”，则可以将标签“青花瓷”或“布偶猫”作为展示信息，视频的名称是《故宫》，则可将“故宫”作为展示信息。

本发明实施例中，智能设备当前播放的音频信息可以是音乐、解说或智能设备播报的对话信息等。举例说明，当智能设备正在播放音乐时，可获取正在播放的音乐的名称，将该名称作为展示信息，当用户问“这歌叫什么名”时，就可以获取用户是在问当前正在播放的音乐对应的名称。当智能设备正在播报文字解说或对话信息时，可从文字解说或对话信息中提取出命名实体，或者基于自然语言理解识别对话信息对应的意图或领域等，将提取的命名实体或识别到的意图信息、领域信息等作为展示信息。

具体实施时，展示信息可预先加载，也可以实时获取。例如，基于智能设备当前在屏幕上展示的文本信息、图像信息以及播放的音乐、解说等多媒体信息，而获得的展示信息可以预先加载，即当检测到智能设备展示的文本信息、图像信息或播放的音乐、解说发生更新时，立即基于更新后的文本信息、图像信息、音乐或解说得到新的展示信息，在与用户交互过程中，可直接使用预先加载的展示信息，无需在每次进行语义识别时重新确定展示信息，以提高处理效率。例如，基于智能设备输出的对话信息确定的展示信息需要实时获取，即基于当前输出的对话信息确定展示信息，保证获取的对话信息的实时性。

本发明实施例中，按照采集方式的不同，智能设备采集到的信息可划分为以下几个类别：文本信息、语音信息、视觉信息以及触觉信息等。其中，文本信息是指用户通过智能设备输入的文本信息。语音输入信息可智能设备通过麦克风或麦克风阵列等采集到的语音信息，结合语音识别技术、声纹识别技术以及声源定位技术等对采集到的语音信息进行处理，可得到文本信息、声纹信息、声源位置等信息，这些信息均可以作为语境信息。视觉信息是指智能设备识别通过摄像头、光传感器等装置获取到的信息，进一步地，基于图像处理、人脸识别、虹膜识别等技术，可得到人脸信息、表情信息、动作信息、场景信息、虹膜信息、光感信息等信息，这些信息均可以作为语境信息。触觉信息是指通过智能设备的触摸屏等触摸装置采集到的信息，结合指纹识别、动作识别等技术可得到指纹信息、触屏操作等信息，这些信息均可以作为语境信息。

本发明实施例中，用户信息具体指当前与智能设备进行交互的用户的相关信息，包括但不限于以下至少一种信息：用户属性信息、当前与智能设备进行交互的用户人数、用户相对于智能设备的位置信息以及表征用户是否期望与智能设备进行交互的交互意图等。其中，用户属性信息包括但不限于姓名、年龄、性别、职业等信息。

具体实施时，可基于智能设备采集到的信息确定用户信息。

举例说明，当用户第一次使用智能设备时，可进行用户注册，以获取用户的用户属性信息，并存储用户属性信息，当用户再次使用智能设备时，可基于人脸识别、虹膜识别、声纹识别、指纹识别等身份识别技术识别用户，并获取用户的用户属性信息。当然，还可以直接通过智能设备采集到的信息获取用户属性信息，以省去用户填写信息的步骤，提高使用智能设备的便捷性，具体地，采集用户的图像，基于图像识别技术、人脸识别技术、虹膜识别技术分析用户的着装、脸部特征以及虹膜，获得用户的性别、大致的年龄段等，此外，也可以通过声纹识别技术分析用户的语音输入信息，获得用户的性别、大致的年龄段等。具体实施时，还可以通过分析用户输入的文本信息和语音信息对应的文本，确定用户的姓名、年龄、性别、职业等信息。

举例说明，可基于语音信息、视觉信息确定当前与智能设备进行交互的用户人数。具体地，利用声纹识别技术分析采集到的语音信息中包含的不同声纹的数量，不同声纹的数量即为用户人数。或者，还可以利用人脸识别技术分析采集到的图像中包含的用户数量，确定当前与智能设备进行交互的用户人数。基于用户人数可确定当前交互模式是多人交互模式，还是单人交互模式。

举例说明，可基于语音信息、视觉信息确定用户相对于智能设备的位置信息。具体地，利用智能设备上的麦克风阵列采集用户的语音信息，通过基于麦克风阵列的声源定位技术可确定各个用户相对与智能设备的位置信息。还可以通过分析采集的图像信息中用户的位置确定用户相对与智能设备的位置信息，或者还可以使用双目立体视觉(Binocular Stereo Vision)技术确定用户相对与智能设备的位置信息。其中，双目立体视觉是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。

举例说明，还可以基于视觉信息确定用户的交互意图。具体地，可综合人脸信息、表情信息、动作信息确定交互意图，例如，当用户的脸朝向智能设备且用户的嘴唇在动时，表明用户与智能设备进行交互的期望较高，当用户的脸朝向其他方向或者用户的嘴唇不动时，表明用户与智能设备进行交互的期望较低，用户长时间望向智能设备的屏幕时也表明用户与智能设备进行交互的期望较高。在此基础上，还可以结合交互距离确定用户的交互意图，例如，当用户距离智能设备较远时，表明用户与智能设备交互的期望较低，当用户距离智能设备较近时，表明用户与智能设备进行交互的期望较高。可综合上述各种信息确定用户与智能设备进行交互的期望值，当期望值高于预设的期望阈值时，可确定用户期望与智能设备及进行交互，否则确定用户不希望与智能设备进行交互。具体实施时，可利用上述方法逐个分析采集到的图像中的多个用户，以在包含多个用户的场景下，精准定位出哪些用户期望与智能设备进行交互，从而仅针对这些用户输入的语音进行语义识别，过滤掉其他用户的语音。

具体实施时，用户信息可预先加载，也可以实时获取。例如，用户属性信息可以预先加载，即识别到用户后获取预存的该用户的用户属性信息，或者，在首次识别到用户时基于智能设备采集到的信息识别该用户的用户属性信息并存储，在后续与该用户交互过程中，可直接使用预先加载的用户属性信息，无需在每次进行语义识别时重新确定用户属性信息，提高处理效率。例如，当前与智能设备进行交互的用户人数、用户相对于智能设备的位置信息可以预先加载，即在基于智能设备采集到的信息确定用户人数或用户的位置信息发生更新时，立即获取更新后的用户人数或用户的位置信息，在与用户交互过程中，可直接使用预先加载的用户人数或用户的位置信息，而无需在每次进行语义识别时重新确定用户人数和用户的位置信息，提高处理效率。例如，交互意图需要实时获取，即每一次进行语义识别时，基于智能设备当前采集到的信息，重新确定交互意图，以保证交互意图的实时性和准确性，以便能够准确定位到当前正在与智能设备进行交互的用户。

具体实施时，还可以基于智能设备采集到的至少一轮对话信息确定用户偏好信息，例如，用户喜欢青花瓷。具体实施时，用户偏好信息可预先加载，即根据用户与智能设备之间的历史对话信息预先确定该用户的用户偏好信息，在与用户交互过程中，可直接使用预先加载的用户偏好信息，而无需在每次进行语义识别时重新确定用户偏好信息，提高处理效率。

本发明实施例中，智能设备当前的状态信息包括但不限于：智能设备当前执行的任务以及当前执行的任务的执行进度。例如，智能设备执行的任务可以是引领、讲解、查询等，执行进度可以包括待执行、执行中、完成执行，更具体地，执行进度可以是任务执行到哪个步骤，例如在引领任务中，执行进度可以是已经带领用户参观完的路线或区域或当前所在的位置等，在讲解任务中，执行进度可以是当前讲解的内容等。具体实施时，任务状态信息可预先加载，即由智能设备在任务状态信息发生更新时，将更新后的任务状态信息发送给服务器，在与用户交互过程中，可直接使用预先加载的任务状态信息，而无需在每次进行语义识别时重新确定任务状态信息，提高处理效率。

综合上述各类信息来确定语境信息，可更加全面准确地获知当前对话所处的环境，进而提高语义识别的准确率。

本发明实施例的方法，对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果，并获取表征当前对话所处的环境的语境信息，根据语音识别结果和当前对话的语境信息，从预设语料库中，确定语音识别结果对应的预测文本，基于该预测文本获得最终语义识别结果，通过在语音数据处理过程中引入当前对话对应的语境信息，实现随着交互环境的变化动态调整语音识别结果对应的预测文本，提高预测的准确率，从而提高语义识别的准确率。进一步地，综合了智能设备当前展示的内容、智能设备采集到的信息、以及智能设备当前的状态信息确定当前对话的语境信息，使得获取的语境信息更加丰富全面，进一步提高语义识别的准确率。

进一步地，如图3所示，上述步骤S202具体包括如下步骤：

S、从语料库中选取与语音识别结果的匹配度高于预设阈值的语料，确定为候选文本。

具体实施时，可基于文本相似度算法、模糊匹配算法、基于对多轮对话信息的上下文理解等一种或多种匹配算法，从语料库中搜索出与语音识别结果的匹配度高于预设阈值的语料，作为候选文本。甚至还可以结合语音识别结果对应的领域信息或意图信息，确定语音识别结果与语料的匹配度，例如，若语音识别结果和语料具有相同的领域信息或意图信息，则表示语音识别结果与该语料的匹配度较高。其中，预设阈值可根据匹配准确度要求以及选择的匹配算法的准确度，由本领域技术人员结合经验以及实际情况进行配置，本发明实施例不作限定。

S、基于当前对话的语境信息，从候选文本中确定出语音识别结果对应的预测文本。

进一步地，步骤S具体包括：若基于当前对话的语境信息确定出至少一个命名实体，将包含确定出的命名实体的候选文本确定为该语音识别结果对应的预测文本。

具体地，若基于当前对话的语境信息确定出一个命名实体，将包含该命名实体的候选文本确定为该语音识别结果对应的预测文本；若基于当前对话的语境信息确定出多个命名实体，将包含命名实体的数量最多的候选文本确定为该语音识别结果对应的预测文本。

例如，基于当前对话的语境信息确定出3个命名实体E1、E2、E3，候选文本T1包含E1一个命名实体，候选文本T2包含E1、E2两个命名实体，其它候选文本不包含上述任一命名实体E1、E2、E3，则将包含命名实体的数量最多的候选文本T2确定为该语音识别结果对应的预测文本。

具体实施时，还可以通过如下方式从候选文本中确定出语音识别结果对应的预测文本：根据当前对话的语境信息调整候选文本与语音识别结果的匹配度，从调整后的候选文本中，选择匹配度最高的候选文本，确定为语音识别结果对应的预测文本。

示例性地，可通过以下方式调整选文本与语音识别结果的匹配度：若基于当前对话的语境信息确定出至少一个命名实体，增大包含确定出的命名实体的候选文本的匹配度。具体地，若基于当前对话的语境信息确定出一个命名实体，增大包含该命名实体的候选文本的匹配度；若基于当前对话的语境信息确定出多个命名实体，增大包含这多个命名实体中的至少一个命名实体的候选文本的匹配度。

具体实施时，可通过以下方式增大候选文本的匹配度：若某一候选文本包含一个基于当前对话的语境信息确定出的命名实体，该候选文本的匹配度增加预设值；若某一候选文本包含N个基于当前对话的语境信息确定出的命名实体，该候选文本的匹配度增加N倍的预设值。其中，预设值可以预先设定的固定值，也可以根据候选文本对应的匹配度动态调整，例如，当候选文本的匹配度普遍较低时可减小预设值，当候选文本的匹配度普遍较高时可增加预设值。

举例说明，基于智能设备采集到的信息确定当前与智能设备进行交互的用户的用户属性信息中的性别为男，当该用户问“厕所在哪”，匹配到候选文本可包括“男厕所在哪”、“女厕所在哪”、“附近的厕所在哪”等，基于该用户的性别为男，增加“男厕所在哪”的匹配度，最终选择匹配度最高的候选文本“男厕所在哪”作为语音识别结果“厕所在哪”对应的预测文本；若基于智能设备采集到的信息确定当前与智能设备进行交互的用户的用户属性信息中的性别为女，则增加“女厕所在哪”的匹配度。

举例说明，当用户说“慢一点”时，可匹配到的候选文本包括“慢一点说”、“慢一点走”等，若基于语境信息中的任务状态信息确定智能设备正在执行讲解任务，则提高“慢一点说”的匹配度，若基于语境信息中的任务状态信息确定智能设备正在执行引领任务，则提高“慢一点走”的匹配度。

当然，实际应用中并不会只基于一种语境信息来调整候选文本的匹配度，可结合多种语境信息，联合调整候选文本的匹配度，以提高预测准确率。举例说明，当用户问“我想买MAC”时，可匹配到的候选文本包括“我想买MAC电脑”、“我想买MAC口红”等，若识别到用户为男性，则增加“我想买MAC电脑”的匹配度，若识别到用户为女性，则增加“我想买MAC口红”的匹配度；若基于展示信息确定屏幕上显示的是电子产品相关的内容，则增加“我想买MAC电脑”的匹配度，若基于展示信息确定屏幕上显示的是化妆品相关的内容，则增加“我想买MAC口红”的匹配度；若基于用户偏好信息确定用户想购买电子产品或对电子产品感兴趣，则增加“我想买MAC电脑”的匹配度，若基于用户偏好信息确定用户想购买化妆品或对化妆品感兴趣，则增加“我想买MAC口红”的匹配度；最终基于上述多种语境信息调整各个候选文本的匹配度，基于调整后的匹配度，从候选文本中选出匹配度最高的候选文本确定为预测文本。

具体实施时，结合多种语境信息，联合调整候选文本的匹配度的具体方法可以是，当某一候选文本符合一项语境信息时，该候选文本的匹配度增加预设值。假设预设值为0.05，例如，用户为男性，则“我想买MAC电脑”的匹配度增加0.05，若基于展示信息确定屏幕上显示的是化妆品相关的内容，则“我想买MAC口红”的匹配度增加0.05，若基于用户偏好信息确定用户想购买化妆品或对化妆品感兴趣，“我想买MAC口红”的匹配度再增加0.05，假设“我想买MAC电脑”和“我想买MAC口红”的匹配度都是0.8，则基于语境信息调整后，“我想买MAC电脑”的匹配度为0.85，“我想买MAC口红”的匹配度为0.9，最终选择“我想买MAC口红”为语义识别结果。其中，预设值可以预先设定，也可以根据候选文本对应的匹配度动态调整，例如，当候选文本的匹配度普遍较低时可减小预设值，当候选文本的匹配度普遍较高时可增加预设值。当然，还可以针对不同的语境信息设置不同的预设值。上述联合调整候选文本的匹配度的方法仅为示例性说明，不限于上述列举的方法。

在实际应用中，交互过程中常常会出现一些新的命名实体，这些新的命名实体可能并未收录在语料库中，导致文本预测出现错误，甚至引发后续的语义识别也出现错误，或者由于同音词导致语音识别结果发生错误，从而导致文本预测甚至后续的语义识别也发生错误。

为解决上述问题，本发明实施例的方法还包括以下步骤：若基于当前对话的语境信息确定出至少一个命名实体，且语料库中不包含命名实体对应的语料，在语料库中添加命名实体对应的语料。这样，基于语境信息，在语料库中增加相应的语料，避免无法匹配到合适的预测文本。

具体实施时，可基于命名实体识别技术从语境信息包含的文本类信息中抽取出命名实体，或者基于图像识别技术从语境信息包含的图像类信息中识别出命名实体，然后，基于获取到的命名实体，将该命名实体对应的语料添加到预设的语料库中，以扩充语料库，使得后续进行文本预测时，能够从语料库中匹配到正确的语料。具体地，可通过以下方法获得新增的命名实体对应的语料：确定新增的命名实体所属的类别，在语料库中查询到包含属于该类别的命名实体的语料，将查询到的语料作为语料模板，用新增的命名实体替换该语料模板中属于该类别的命名实体，得到新增的命名实体对应的语料。

举例说明，智能设备的屏幕上正在展示“懂食长餐厅”，则获取命名实体“懂食长餐厅”，确定“懂食长餐厅”所属的类别为餐厅，则在语料库中查询到关于餐厅的语料，如“ABC餐厅有什么好吃的”、“ABC餐厅在哪”、“带我去ABC餐厅”等，然后，用“懂食长餐厅”替换查询到的语料中属于餐厅的命名实体，得到“懂食长餐厅”对应的语料，如“懂食长餐厅有什么好吃的”、“懂食长餐厅在哪”、“带我去懂食长餐厅”等。这样，当用户说“带我去懂食长”，即便语音识别结果为“带我去董事长”，在文本预测过程中，基于扩充后的语料库，匹配到候选文本中会包括新增的语料“带我去懂食长餐厅”，当然匹配到候选文本中也包括“带我去找董事长”等，然后基于语境信息，增大候选文本“带我去懂食长餐厅”的匹配度，最终得到的预测文本为“带我去懂食长餐厅”。

举例说明，在实际应用中，用户说话时常常省略部分内容，导致语义不清或发生歧义。例如用户说“带我去北美洲”，一般会理解为用户要去北美洲，但是，用户口中的“北美洲”可能是指酒店的“北美洲会议室”。举例说明，用户说“带我去北美洲”，若此时智能设备屏幕上展示的信息包括“北美洲会议室”，则将“北美洲会议室”作为新增的命名实体添加到语料库中，则在文本预测过程中能够匹配到的候选文本中至少包括“带我去北美洲”、“带我去北美洲会议室”，此时，由于展示信息包括“北美洲会议室”，增大“带我去北美洲会议室”的匹配度，因此，“带我去北美洲会议室”的匹配度会高于“带我去北美洲”，最终得到的预测文本为“带我去北美洲会议室”。为此，在文本预测过程中，结合语境信息进行预测，能够有效避免歧义的发生，提高文本预测的准确率。

具体实施时，为了提高新增的命名实体对应的语料的生成速度，可对语料库中的语料进行分类，具体可按照语料对应的任务对语料进行分类，例如，将关于问路的语料归为一类，提取出同一类语料中相同的句式，如“XXX在哪”、“带我去XXX”、“XXX怎么去”等存储到问路类别下，其中，“XXX”即对应命名实体，将问路类别中的语料中涉及的命名识别单独提取出来，存储在问路类别对应的字典中。当需要新增命名实体时，只需要将新增的命名实体存储到对应类别的字典中，基于问路类别对应的句式，即可得到新增的命名实体对应的语料，假设新增的命名实体为懂食长餐厅，则对应的语料包括“懂食长餐厅在哪”、“带我去懂食长餐厅”、“懂食长餐厅怎么去”等。

作为一种可能的实施方式，步骤S202之后，本发明实施例的方法还包括以下步骤：基于语境信息确定出至少一个第一命名实体；确定出预测文本中包含的至少一个第二命名实体；计算第一命名实体和第二命名实体的相似度；若第一命名实体和第二命名实体的相似度大于相似度阈值，将预测文本中的第二命名实体替换为第一命名实体。这样，对于交互过程中常常会出现一些新的命名实体，或者由于同音词导致语音识别结果发生错误的情况，均可以通过上述方式，对预测文本中的命名实体进行替换，以实现对预测文本的纠错。

具体实施时，可从文本相似度或发音相似度等方面确定第一命名实体和第二命名实体的相似度。

本发明实施例中，相似度阈值的具体取值可由本领域信息技术人员基于选用的相似度算法的精度、识别准确度、文本泛化能力等具体要求，结合实际经验确定，本发明实施例不作限定。

举例说明，智能设备的屏幕上正在展示“懂食长”餐厅，则可从语境信息中确定出第一命名实体“懂食长”。当用户说“带我去懂食长”，语音识别结果为“带我去董事长”，得到的预测文本为“带我去董事长”，此时从预测文本中获取第二命名实体“董事长”，由于“懂食长”和“董事长”的发音相似度超过相似度阈值，则将预测文本“带我去董事长”中的“董事长”替换为“懂食长”，得到经纠错处理后的预测文本为“带我去懂食长”。

如图4所示，在上述任一实施例的基础上，在步骤S202之后，本发明实施例的方法还包括以下步骤：

S203、根据预测文本和语境信息，确定预测文本的最终语义识别结果。

具体实施时，步骤S203包括：获取预测文本对应的语义识别结果；基于语境信息对语义识别结果中缺失槽位值的槽位项进行填充，得到最终语义识别结果。

具体实施时，可基于现有的NLU技术对预测文本进行语义识别处理，得到预测文本的语义识别结果，该语义识别结果中包含领域信息、意图信息以及槽位信息，每个槽位信息包括槽位项和槽位值。其中，槽位项对应的槽位值为完成任务时所需要的信息，例如，要想完成查看天气的任务，需要知道地点、时间这些必要的信息，这些必要信息就是槽位信息，通过对话获取槽位项对应的槽位值，从而基于槽位值完成对应的任务。具体地，可采用词典(dict)结构存储每个对话状态中的槽位信息，其中，key值可以是槽位项的名称，value值为对应的槽位值。举例说明，预测文本为“我想听刘德华的忘情水”，可识别出领域信息为音乐，意图信息为播放音乐，槽位项“歌手”的槽位值为“刘德华”，槽位项“歌曲”的槽位值为“忘情水”，基于语义识别结果，控制智能设备播放刘德华的歌曲《忘情水》。

具体实施时，还可以预先为语料库中的每个语料配置对应的语义识别结果，当需要根据预测文本获取语义识别结果时，只需要根据对应关系，获取与预测文本对应的语义识别结果即可，以提高获取预测文本对应的语义识别结果的效率。

举例说明，当用户说“这家餐厅在哪”，可得到语义识别结果为问路领域，已获取的槽位信息包括“餐厅”，但是，无法确定具体是哪家餐厅，即缺失槽位项“地点”的槽位值，若智能设备当前展示的是“ABC餐厅”，则可以确定用户想要去的餐厅是“ABC餐厅”，将“ABC餐厅”作为语义识别结果中槽位项“地点”的槽位值，从而得到最终的语义识别结果。

S204、根据预测文本的最终语义识别结果，确定预测文本对应的响应数据。

本发明实施例中所指的响应数据不限于文本数据、音频数据、图像数据、视频数据、语音播报、或控制指令等，其中，控制指令包括但不限于：控制智能设备显示表情的指令、控制智能设备的动作部件运动的指令(如引领、导航、拍照、跳舞等)等。

具体实施时，还可以预先为语料库中的每个语料配置至少一个预设响应数据，当需要根据预测文本确定响应数据时，只需要根据对应关系，获取与预测文本对应的预设响应数据，将该预设响应数据作为预测文本对应的响应数据，以提高获取响应数据的效率。

具体实施时，对于通过命名实体识别新增到语料库中的语料，可以基于新增语料在语料库中对应的类别中的其它语料的响应数据，确定新增语料对应的响应数据。例如，问路类别下的语料对应的响应数据包括控制智能设备显示XXX(地点)在地图中的位置、语音导航等，则在语料库中新增“懂食长餐厅”相关的语料“懂食长餐厅在哪”、“带我去懂食长餐厅”、“懂食长餐厅怎么去”等后，可确定上述这些语料的响应数据可以是控制智能设备显示“懂食长餐厅”在地图中的位置、语音导航“懂食长餐厅”等。

具体实施时，对于通过命名实体识别新增到语料库中的语料，还可以基于网络搜索的方式，搜索到针对新增语料对应的回复信息，并确定回复方式，得到新增语料对应的响应数据。其中，回复方式不限于显示文本、语音播报、展示图像、播放视频等。

如图5所示，基于与上述语音数据处理方法相同的发明构思，本发明实施例还提供了一种语音数据处理装置50，包括：语音识别模块501和预测模块502。

语音识别模块501，用于对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果；

预测模块502，用于根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本。

可选地，所述预测模块502具体用于：从语料库中选取与所述语音识别结果的匹配度高于预设阈值的语料，确定为候选文本；基于当前对话的语境信息，从所述候选文本中确定出所述语音识别结果对应的预测文本。

可选地，所述预测模块502具体用于：若基于当前对话的语境信息确定出至少一个命名实体，将包含所述命名实体的候选文本确定为所述语音识别结果对应的预测文本。

可选地，所述预测模块502具体用于：若基于当前对话的语境信息确定出多个命名实体，将包含所述命名实体的数量最多的候选文本确定为所述语音识别结果对应的预测文本。

可选地，还包括语料添加模块，用于：若基于当前对话的语境信息确定出至少一个命名实体，且所述语料库中不包含所述命名实体对应的语料，在所述语料库中添加所述命名实体对应的语料。

可选地，所述预测模块502还用于：

确定所述语音识别结果对应的预测文本之后，基于所述语境信息确定出至少一个第一命名实体；

确定出所述预测文本中包含的至少一个第二命名实体；

计算所述第一命名实体和所述第二命名实体的相似度；

若所述第一命名实体和所述第二命名实体的相似度大于相似度阈值，将所述预测文本中的所述第二命名实体替换为所述第一命名实体。

可选地，还包括语境信息获取模块，用于：基于以下至少一种信息确定所述语境信息：所述智能设备当前展示的内容、所述智能设备采集到的信息、以及所述智能设备当前的状态信息。

可选地，还包括语义识别模块503，用于：确定所述语音识别结果对应的预测文本之后，根据所述预测文本和所述语境信息，确定所述预测文本的最终语义识别结果；根据所述预测文本的最终语义识别结果，确定所述预测文本对应的响应数据。

可选地，所述语义识别模块503具体用于：获取所述预测文本对应的语义识别结果；基于所述语境信息对所述语义识别结果中缺失槽位值的槽位项进行填充，得到最终语义识别结果。

本发明实施例提的语音数据处理装置与上述语音数据处理方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述语音数据处理方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以为智能设备内部的控制设备或控制系统，也可以是与智能设备通信的外部设备，如可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、服务器等。如图6所示，该电子设备60可以包括处理器601和存储器602。

存储器602可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储语音数据处理方法的程序。

处理器601可以是CPU(中央处埋器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的语音数据处理方法。

本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述语音数据处理方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

基于与语音数据处理方法相同的发明构思，本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一实施例中的语音数据处理方法。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域信息的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

技术特征：

1.一种语音数据处理方法，其特征在于，包括：

对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果；

根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本。

2.根据权利要求1所述的方法，其特征在于，根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本，具体包括：

从语料库中选取与所述语音识别结果的匹配度高于预设阈值的语料，确定为候选文本；

基于当前对话的语境信息，从所述候选文本中确定出所述语音识别结果对应的预测文本。

3.根据权利要求2所述的方法，其特征在于，所述基于当前对话的语境信息，从所述候选文本中确定出所述语音识别结果对应的预测文本，具体包括：

若基于当前对话的语境信息确定出至少一个命名实体，将包含所述命名实体的候选文本确定为所述语音识别结果对应的预测文本。

4.根据权利要求3所述的方法，其特征在于，所述将包含所述命名实体的候选文本确定为所述语音识别结果对应的预测文本，具体包括：

若基于当前对话的语境信息确定出多个命名实体，将包含所述命名实体的数量最多的候选文本确定为所述语音识别结果对应的预测文本。

5.根据权利要求1至4中任一所述的方法，其特征在于，确定所述语音识别结果对应的预测文本之后，还包括：

基于所述语境信息确定出至少一个第一命名实体；

确定出所述预测文本中包含的至少一个第二命名实体；

计算所述第一命名实体和所述第二命名实体的相似度；

若所述第一命名实体和所述第二命名实体的相似度大于相似度阈值，将所述预测文本中的所述第二命名实体替换为所述第一命名实体。

6.根据权利要求1至4中任一所述的方法，其特征在于，还包括：

基于以下至少一种信息确定所述语境信息：所述智能设备当前展示的内容、所述智能设备采集到的信息、以及所述智能设备当前的状态信息。

7.根据权利要求1至4中任一所述的方法，其特征在于，确定所述语音识别结果对应的预测文本之后，还包括：

根据所述预测文本和所述语境信息，确定所述预测文本的最终语义识别结果；

根据所述预测文本的最终语义识别结果，确定所述预测文本对应的响应数据。

8.一种语音数据处理装置，其特征在于，包括：

语音识别模块，用于对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果；

预测模块，用于根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。

技术总结

本发明涉及人工智能技术领域信息，公开了一种语音数据处理方法、装置、电子设备及存储介质，所述方法包括：对智能设备实时采集到的语音数据进行语音识别，得到语音识别结果；根据所述语音识别结果和当前对话的语境信息，从预设语料库中，确定所述语音识别结果对应的预测文本。本发明实施例提供的技术方案，通过在语音数据处理过程中引入当前对话对应的语境信息，实现随着交互环境的变化动态调整语音识别结果对应的预测文本，提高语音数据处理的准确率。

技术研发人员：李思达;韩伟

受保护的技术使用者：北京猎户星空科技有限公司

技术研发日：.06.28

技术公布日：.09.27

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。