100字范文 > 人机交互方法控制装置被控装置及存储介质与流程

人机交互方法控制装置被控装置及存储介质与流程

时间：2023-02-18 18:39:12

本发明属于智能控制技术领域，尤其涉及人机交互方法、控制装置、被控装置及存储介质。

背景技术：

随着智能终端的普及，以及越来越多的智能设备和智能家居的出现，人机交互算得上是非常核心的功能。随着语音识别技术的发展，越来越多的智能设备采用语音控制来实现人机交互，现有的语音终端在侦测到语音控制指令时，可基于预存的语音控制指令与控制代码之间的映射关系，响应侦测到的语音控制指令所对应的控制代码，此种属于人机交互中的语音助手功能。目前，绝大部分智能终端，都具有语音助手功能，一般需要输入特定的语音(例如唤醒词)完成触发，从而使语音助手处于语音待输入状态。例如在接电源的情况下，带语音助手功能的智能终端说一声“小ai同学”，就可以唤醒语音助手服务。

但是，目前的语音助手只有在有唤醒词时的语音控制触发比较准确，对于无唤醒词的自然语言模式下还不能很好的解决如何分辨语音接收对象，很容易发生误触发控制指令，例如当用户说“看电视”，这可能有两种情况，一种是真正想要打开家里的电视，另一种可能是和其他人聊天过程中包含“看电视”这个词，当实际情况属于第二种情况时，语音助手很容易发生误开电视机的情况。

针对以上问题，本领域技术人员一直在寻求解决方法。

技术实现要素：

有鉴于此，本发明提供了人机交互方法、控制装置、被控装置及存储介质，目的在于提高人机交互的准确度。

本发明是这样实现的：

本发明提供了一种人机交互方法，包括：接收语音信号。检测语音信号源的特征，语音信号源的特征包括发出语音信号的用户的面部朝向或用户与被控装置的相对方位。判断语音信号是否包括唤醒词。若语音信号包括唤醒词，则对语音信号进行语音指令识别，以获取语音指令。若语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，进入对语音信号进行语音指令识别，以获取语音指令的步骤，其中，预设的特征包括用户的面部朝向被控设备/控制装置的正面，或用户位于被控设备的正面。

进一步地，检测语音信号源的特征的步骤中，包括：检测用户的眼球聚焦于被控设备/控制装置的时间。预设的特征还包括用户的眼球聚焦于被控设备/控制装置的时间大于阈值。

进一步地，判断语音信号是否包括唤醒词的步骤之前，包括：获取用户的人脸，并判断用户的人脸是否与预先存储的特定的人脸匹配。当用户的人脸与预先存储的特定人脸匹配时，进入判断语音信号是否包括唤醒词的步骤。当人脸与预先存储的特定人脸不匹配时，返回接收语音信号的步骤。

进一步地，在对语音信号进行语音指令识别，以获取语音指令步骤之后，包括：根据语音指令，进入人机对话模式，输出相应的对话语音和/或根据语音指令进行相应的控制。

进一步地，预设的特征包括用户的面部朝向控制装置的正面。在对语音信号进行语音指令识别，以获取语音指令步骤之后，包括：判断语音指令中是否包括控制对象，控制对象包括至少一个家用设备。若语音指令中不包括控制对象，则根据当前的环境信息和/或当前的时间信息获取家电控制大数据，并根据家电控制大数据获取至少一个家用设备，及每个家用设备相应的家电控制信息，以分别根据家电控制信息控制相应的家用设备。若语音指令中包括控制对象，则根据语音指令对控制对象进行相应的控制。

进一步地，若语音指令中包括控制对象，则对控制对象进行相应的控制的步骤，包括：检测用户的人脸，并获取与人脸对应的控制对象的历史控制信息，以根据历史控制信息对控制对象进行相应的控制，控制对象包括电视机和/或音乐播放器和/或电灯。

本发明还提供了一种控制装置，包括：语音信号接收模块，用于接收语音信号。特征检测模块，与语音信号接收模块相连，用于检测语音信号源的特征，语音信号源的特征包括发出语音信号的用户的面部朝向或用户与被控装置的相对方位。唤醒词识别模块，与语音信号接收模块相连，用于判断语音信号是否包括唤醒词。语音指令获取模块，用于当语音信号包括唤醒词时，对语音信号进行语音指令识别，以获取语音指令，且当语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，对语音信号进行语音指令识别，以获取语音指令，其中，预设的特征包括用户的面部朝向被控设备/控制装置的正面，或用户位于被控设备的正面。

本发明还提供了一种被控设备，且被控设备包括上述的控制装置。

本发明还提供了一种控制装置，控制装置包括处理器，处理器用于执行存储器中存储的计算机程序以实现上述的人机交互方法的步骤。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的人机交互方法的步骤。

本发明中，在接收语音信后，检测语音信号源的特征，语音信号源的特征包括发出语音信号的用户的面部朝向或用户与被控装置的相对方位。判断语音信号是否包括唤醒词。若语音信号包括唤醒词，则对语音信号进行语音指令识别，以获取语音指令。若语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，进入对语音信号进行语音指令识别，以获取语音指令的步骤，其中，预设的特征包括用户的面部朝向被控设备/控制装置的正面，或用户位于被控设备的正面，从而通过本发明，在人机交互的过程中，接收的语音信号中不包括唤醒词时，能够通过用户的面部朝向或用户与被控设备的相对方位进行判断是否需要对用户发出的语音信号进行语音指令识别，从而能够实现提高人机交互准确度。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1是本发明实施例一提供的人机交互方法的流程示意图；

图2是本发明实施例二提供的人机交互方法的流程示意图；

图3是本发明实施例三提供的控制装置的结构示意图；

图4是本发明实施例四提供的被控设备的结构示意图；

图5是本发明实施例五提供的控制装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明实施例做进一步详述。

实施例一：

图1是本发明实施例一提供的人机交互方法的流程示意图。为了清楚的描述本发明实施例一提供的人机交互方法，请参见图1。

本发明实施例一提供的人机交互方法，包括如下步骤：

s101:接收语音信号。

在一实施方式中，应用本实施例提供的人机交互方法的设备/装置，在接收语音信号之前，该设备/装置处于静音检测状态，此时该设备/装置的功耗极低，因此该设备/装置能够保持长时间工作的能力。

在一实施方式中，在步骤s101中，还可以包括：在接收的语音信号的音量达到一定阈值时，进入步骤s102。

s102:检测语音信号源的特征。

具体地，其中，语音信号源包括但不限于发出语音信号的用户。语音信号源的特征可以包括发出语音信号的用户的面部朝向或发出语音信号的用户与被控设备的相对方位。

在一实施方式中，检测发出语音信号的用户的面部朝向可以是控制装置或者被控设备通过图像采集装置进行检测的，其中，图像采集装置可以但不限于集成在控制装置或者被控设备中。

在一实施方式中，检测发出语音信号的用户与被控设备的相对方位可以是控制装置或被控设备通过图像采集装置和/或声源定位装置进行检测的，其中，图像采集装置和/或声源定位装置可以集成在被控设备或者控制装置中。

在一实施方式中，控制装置可以对多个被控设备进行统一的控制，其中，被控设备例如可以是电子窗帘、电视机、电子门、空调、电灯等等。在其他实施方式中，控制装置也可以仅控制一个被控设备，此外，控制装置可以集成设置在被控设备中。

s103:判断语音信号是否包括唤醒词。

在一实施方式中，唤醒词是指唤醒控制设备或被控设备的特定的词汇。唤醒词可以是设备名称或设备中语音识别程序的名称，例如，“天猫精灵”、“小ai同学”、“语音助手”等等。

在其他实施方式中，在执行步骤s103：判断语音信号是否包括唤醒词之前，可以包括步骤：获取用户的人脸，并判断用户的人脸是否与预先存储的特定的人脸匹配。当用户的人脸与预先存储的特定人脸匹配时，进入步骤s103，或当所述用户的人脸与预先存储的特定人脸不匹配时，返回步骤s101。其中，预先存储的特定的人脸，可以是被控设备或控制装置预先通过图像采集器进行图像采集并存储的，且当存储多个特定的人脸时，还可以对每个特定的人脸设置一个或多个称谓(例如人名、亲属关系名称等)与之关联。

s104:若语音信号包括唤醒词时，对语音信号进行语言指令识别，以获取语音指令。

在一实施方式中，在对语音信号进行语音指令识别的步骤之后，包括：根据语音指令，进入人机对话模式，输出相应的对话语音和/根据语音指令进行相应的控制。例如，语音指令为打开电视，控制装置控制电视打开或电视机自动打开，此时，控制装置或者电视机可以询问“您想要看什么节目呢？”，并在用户说出想要看的节目后，使得电视机可以跳转到该节目。

在其他实施方式中，在获取用户的人脸，且当用户的人脸与预先存储的特定的人脸匹配时，进入步骤s103和步骤s104的步骤之后，根据语音指令，进入人机对话模式。例如，当获取的人脸与预先存储的特定的人脸匹配时，控制装置或被控设备做出语音打招呼，使用户具有更亲切的体验，进一步地，还可以根据与特定的人脸对应的称谓进行个性化的人机对话，能够给不同的用户带来不一样的人机交互体验。

在一实施方式中，根据语音信号获取语音指令的同时，还根据对语音信号的语音识别、语意理解、图像检测和识别等多种方式的处理，进行相应的分析操作，建立学习模型，从而能够实现更加智能化、个性化的人机对话模式，提升用户体验。例如，用户在运动之后，发出语音信号说“好热啊，帮我打开空调”，此时对语音信号进行语音识别、语意理解、获取用户的图像信息，进行处理后，可以得出用户是运动后觉得很热，而不是天气热，因此设备/装置可以对用户发出语音提示“你才运动完，建议休息一会再开空调哦。”

在一实施方式中，当语音信号仅仅包括唤醒词时，可以主动提醒用户发出语音指令，进一步地，可以设定当语音信号仅仅包括唤醒词时，在预设的时长内没有检测到语音指令时，对用户做出语音提示(例如“小哥哥，说点什么吧”)。

s105:若语音信号包括唤醒词时，判断语音信号源的特征是否符合预设的特征，若语音信号源的特征符合预设的特征时，则执行步骤s104，若语音信号源的特征不符合预设的特征，则返回步骤s101。

具体地，预设的特征包括用户的面部朝向被控设备/控制装置，或用户位于被控设备的正面。

在一实施方式中，在检测语音信号源的特征的步骤中，包括：检测用户的面部朝向后，当能够检测到用户的眼睛特征时，检测用户的眼球聚焦于被控设备/控制装置的时间。步骤s105中的预设的特征还可以包括用户的眼球聚焦于被控设备/控制装置的时间大于阈值。因此，当语音信号中不包括唤醒词，且语音信号源的特征符合预设的特征时，执行步骤s104，例如，当检测用户的面部正面朝向被控设备/控制装置，且检测到该用户的眼球聚焦于被控设备/控制装置的时间大于阈值时，对语音信号进行语音指令识别，以获取语音指令，从而在语音信号不包括唤醒词时，可以通过识别用户的面部朝向及眼球的聚焦状态，判断是否对用户发出的语音信号进行识别以获取语音指令，因此能够有效的避免用户在自然语言说话(例如聊天)时，误触发被控设备/或控制装置的情况发生，故能够大大提高了人机交互方法的准确度。

在其他实施方式中，用户的面部朝向控制装置的正面时，控制装置能够判断语音指令(其中，语音指令是根据语音信号获取的)中是否包括控制对象，其中，控制对象可以包括至少一个被控设备(即控制装置可以控制至少一个被控设备)。进一步地，在语音指令不包括控制对象时，控制装置可以根据控制大数据，自动对相应的被控设备进行控制。进一步地，在语音信号包括控制对象时，控制装置可以根据该控制对象的历史控制信息自动对该控制对象进行相应的控制，因此，可以使本发明提供的人家交互方法更加智能化。

在一实施方式中，在检测语音信号源的特征的步骤中，包括：检测发出语音信号的用户与被控设备的相对方位。因此，当语音信号中不包括唤醒词时，该用户与被控设备的相对方位符合预设的特征时，进行获取语音指令的步骤。其中，该用户与被控设备的相对方位符合预设的特征，例如，该用户位于被控设备的正面(例如用户在电视机的正面)、该用户与被控设备的距离小于阈值(例如该用户与风扇的距离小于5米)等等。

本发明实施例一提供的人机交互方法，在接收语音信后，检测语音信号源的特征。判断语音信号是否包括唤醒词。若语音信号包括唤醒词，则对语音信号进行语音指令识别，以获取语音指令。若语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，进入对语音信号进行语音指令识别，以获取语音指令的步骤，其中，预设的特征包括用户的面部朝向被控设备/控制装置的正面，或用户位于被控设备的正面，从而通过本发明，在人机交互的过程中，接收的语音信号中不包括唤醒词时，能够通过用户的面部朝向或用户与被控设备的相对方位进行判断是否需要对用户发出的语音信号进行语音指令识别后，根据语音指令对控制装置/被控设备进行相应的控制，因此能够有效的避免用户在自然语言说话(例如聊天)时，误触发被控设备/或控制装置的情况发生，故能够大大提高了人机交互方法的准确度。

实施例二：

图2是本发明实施例二提供的人机交互方法的流程示意图。为了清楚的描述本发明实施例二提供的人机交互方法，请参见图2。

本发明实施例二提供的人机交互方法，应用于控制装置，包括如下步骤：

s201:接收语音信号。

s202:检测语音信号源的特征。

具体地，语音信号源的特征可以包括发出语音信号的用户的面部朝向或发出语音信号的用户与被控设备的相对方位，其中，语音信号源包括但不限于发出语音信号的用户。具体地，在接收语音信号之后，立即检测语音信号源的特征，可以及时的检测用户发出语音信号时的特征，防止用户发出语音信号之后，进行其他动作，导致特征变换，引起语音信号源的特征检测不准确的情况发生，进一步能够确保后续步骤的准确性。

在一实施方式中，检测发出语音信号的用户的面部朝向可以是控制装置或者被控设备通过图像采集装置(例如摄像头)进行检测的，例如，控制装置接收到语音信号时，开启控制装置的图像采集装置检测用户的面部朝向。又例如，控制装置接收语音信号时，可以控制被控设备开启图像采集装置检测用户的面部朝向。

在一实施方式中，控制装置或者被控设备中可以包括图像采集装置，还可以是控制装置或被控设备外设的图像采集装置。

在一实施方式中，控制装置可以对多个被控设备进行统一的管理，其中，被控设备例如电子窗帘、电视机、电子门、空调、电灯等等。

s203:判断语音信号是否包括唤醒词。

s204:若语音信号包括唤醒词时，对语音信号进行语言指令识别，以获取语音指令。

s205:若语音信号不包括唤醒词时，判断语音信号源的特征是否符合预设的特征，若语音信号源的特征符合预设的特征时，则执行步骤s204，若语音信号源的特征不符合预设的特征，则返回步骤s201。

具体地，预设的特征包括用户的面部朝向被控设备/控制装置，或用户位于被控设备的正面。

在一实施方式中，预设的特征还可以是用户的面部朝向控制装置的正面，且在该用户面部朝向控制装置的正面时，执行步骤s206。

s206：判断语音指令中是否包括控制对象。

具体地，步骤s206是在对语音信号进行语音指令识别，以获取语音指令的步骤之后。

在一实施方式中，控制对象包括至少一个被控设备(例如电视机、智能音箱、空调、洗衣机、电灯、电子窗帘、电子门、扫地机器人等家用设备或其他设备)。

s207:若语音指令中不包括控制对象，则根据当前的环境信息和/或当前的时间信息获取家电控制大数据，并根据家电控制大数据获取至少一个家用设备，及每个家用设备相应的家电控制信息，以分别根据家电控制信息控制相应的家用设备。

在一实施方式中，语音指令中不包括控制对象的情况，例如用户对着控制装置只模糊的语音指令(例如，“打开”、“开启”等等)。具体地，控制装置可以在获取模糊的语音指令之后，根据当前的环境信息和/或当前的时间信息获取至少一个家用设备，进行相应的控制。

在一实施方式中，当前的环境信息包括室内温度信息、室内亮度信息、地板干净整洁度信息、室内人数信息中至少一项，但当前的环境信息不限于包括室内温度信息、室内亮度信息、地板干净整洁度信息、室内人数信息等等。

在一实施方式中，控制装置可以根据当前环境信息和/或当前的时间信息从云端服务器中获取与当前环境信息和/或当前的时间信息相对应的家电控制大数据，其中，云端服务器中存储的家电控制大数据，可以是本用户通过控制装置上传至云端服务器的与环境信息和/或时间信息对应的家电控制数据，也可以是其他用户通过其他的控制终端上传至云端服务器的与环境信息和/或时间信息对应的家电控制数据。具体地，控制装置根据当前环境信息和/或当前的时间信息从云端服务器中获取与当前环境信息和/或当前的时间信息相对应的家电控制大数据可以是云端上存储的本用户的家电控制大数据或云端上存储的其他用户的常用的家电控制大数据。

具体地，控制装置可以根据当前的环境信息获取与当前的环境信息对应的家电控制大数据，例如，光照强度小于50lux(即光线阴暗)、室内温度高于35°或地板有垃圾，则控制装置根据当前的这些环境信息从云端服务器获取的本用户的家电控制大数据为打开电灯或打开窗帘、打开空调并设置空调温度或开启扫地机器人。

此外，控制装置还可以根据当前的时间信息获取与当前的时间信息对应的家电控制大数据，例如，对应早上5点至9点这个时间段内各个时间点的本用户的家电控制大数据为打开窗帘、打开音乐播放器或饮水机开始加热等；对应下午6点至晚上8点这个时间段内各个时间点的本用户的家电控制大数据为打开电视机或打开电脑或打开电灯等等。

此外，控制装置还可以根据当前的环境信息和当前的时间信息获取与当前的环境信息和当前的时间信息对应的家电控制大数据，例如，室内温度高于35°、时间在晚上7点至晚上7点半这个时间段内，则控制装置根据上述的当前的环境信息和当前的时间信息获取的本用户的家电控制大数据为打开空调并设置空调温度、打开电灯或打开电视播放电视节目(例如7点钟的中央电视台新闻联播)。

在其他实施方式中，控制装置根据当前环境信息和/或当前的时间信息获取控制装置内存储的与当前环境信息和/或当前的时间信息相对应的本用户的家电控制大数据。

在一实施方式中，获取的家电大数据中包括至少一个待控制的家用设备，及每个待控制的家用设备相应的家电控制信息。因此，本实施例提供的人机交互方法，在获取语音指令，并在语音指令中不包括控制对象时，能够智能化的根据当前的环境信息和/或当前的时间选择至少一件家电设备进行相应的控制，因此，本实施例提供的人机交互方法不仅大大提高了人交互的准确度，还能够使得本实施例提供的人家交互方法更加智能化。

s208：若语音指令中包括控制对象，则根据语音指令对控制对象进行相应的控制。

在一实施方式中，当语音指令中仅包括控制对象，但该控制对象的控制信息时，检测用户的人脸，并获取与人脸对应的控制对象的历史控制信息，以根据历史控制信息对控制对象进行相应的控制。例如，当语音指令为打开电视机，没有频道信息或者节目信息时，控制装置可以根据用户的人脸获取到该用户上一次观看的节目信息及观看进度信息(即，历史控制信息)，从而控制装置可以控制电视机打开之后，打开与该节目信息及观看进度信息对应的多媒体信息。

在一实施方式中，检测用户的人脸的步骤可以是在步骤s202检测语音信号源的特征的同时检测的。

本发明实施例二提供的人机交互方法，包括：接收语音信号。检测语音信号源的特征。判断语音信号是否包括唤醒词。若语音信号包括唤醒词时，对语音信号进行语言指令识别，以获取语音指令。若语音信号不包括唤醒词时，判断语音信号源的特征是否符合预设的特征，若语音信号源的特征符合预设的特征时，则获取语音指令，若语音信号源的特征不符合预设的特征，则返回接收语音信号的步骤。在获取语音指令的步骤之后，判断语音指令中是否包括控制对象。若语音指令中不包括控制对象，则根据当前的环境信息和/或当前的时间信息获取家电控制大数据，并根据家电控制大数据获取至少一个家用设备，及每个家用设备相应的家电控制信息，以分别根据家电控制信息控制相应的家用设备。若语音指令中不包括控制对象，则根据语音指令对控制对象进行相应的控制。因此，在语音信号中不包括唤醒词时，检测发出语音信号的用户的特征，且在检测到所述用户的特征符合预设的特征时，进行语音指令获取的步骤，能够实现提高人机交互准确度的目的，并且在进行语音指令获取的步骤之后，通过判断语音指令中是否包括控制对象，能够在语音指令中不包括控制对象的时候，根据当前的环境信息和/或当前的时间信息获取至少一个控制对象，并对每个控制对象进行相应的控制，使得本实施例提供的人机交互方法的智能性大大提高，此外，在语音指令中包括控制对象时，控制装置根据该控制对象的历史控制信息对该控制对象进行相应的控制，进一步提高了本实施例提供的人机交互方法的智能性。

实施例三：

图3是本发明实施例三提供的控制装置的结构示意图。为了清楚的描述本发明实施例三提供的控制装置1，请参见图3。

参加图3，本发明实施例三提供的控制装置1，包括：语音信号接收模块101、特征检测模块102、唤醒识别模块103及语音指令获取模块104。

具体地，语音信号接收模块101用于接收语音信号。

在一实施方式中，语音信号接收模块101接收语音信号之前，语音信号接收模块101处于静音检测状态，此时控制装置1的功耗极低，从而使得控制装置1保持长时间工作的能力。

具体地，特征检测模块102与语音信号接收模块101相连，用于检测语音信号源的特征，语音信号源的特征包括发出语音信号的用户的面部朝向或用户与被控装置的相对方位。

在一实施方式中，特征检测模块102包括图像采集装置。在其他实施方式中，特征检测模块102可以包括图像采集装置和/或声源定位装置。其中，图像采集装置可以用于采集语音信号源的图像信息，从而识别语音信号源的特征。其中声源定位装置，能够根据接收的语音信号，判断语音信号源的方位。

具体地，唤醒识别模块103与语音信号接收模块101相连，用于判断语音信号是否包括唤醒词。

具体地，语音指令获取模块104，用于当语音信号包括唤醒词时，对语音信号进行语音指令识别，以获取语音指令，且当语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，对语音信号进行语音指令识别，以获取语音指令，其中，预设的特征包括用户的面部朝向被控设备/控制装置1的正面，或用户位于被控设备的正面。

在一实施方式中，语音指令识别模块，用于判断语音指令中是否包括控制对象。若语音指令中不包括控制对象，则根据当前的环境信息和/或当前的时间信息获取家电控制大数据，并根据家电控制大数据获取至少一个家用设备，及每个家用设备相应的家电控制信息，以分别根据家电控制信息控制相应的家用设备。若语音指令中包括控制对象，则根据语音指令对控制对象进行相应的控制。

在一实施方式中，语音指令识别模块在语音指令中仅包括控制对象，但不包括该控制对象的控制信息时，检测用户的人脸，并获取与人脸对应的控制对象的历史控制信息，以根据历史控制信息对控制对象进行相应的控制。

本发明实施例三提供的控制装置1，语音信号接收模块101用于接收语音信号。特征检测模块102与语音信号接收模块101相连，用于检测语音信号源的特征，语音信号源的特征包括发出语音信号的用户的面部朝向或用户与被控装置的相对方位。唤醒识别模块103与语音信号接收模块101相连，用于判断语音信号是否包括唤醒词。语音指令获取模块104，用于当语音信号包括唤醒词时，对语音信号进行语音指令识别，以获取语音指令，且当语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，对语音信号进行语音指令识别，以获取语音指令，其中，预设的特征包括用户的面部朝向被控设备/控制装置1的正面，或用户位于被控设备的正面。从而通过本发明实施例提供的控制装置1，在人机交互的过程中，在接收的语音信号中不包括唤醒词时，能够通过用户的面部朝向或用户与被控设备的相对方位进行判断是否需要对用户发出的语音信号进行语音指令识别后，根据语音指令对被控设备进行相应的控制，因此能够有效的避免用户在自然语言说话(例如聊天)时，误触发被控设备/或控制装置1的情况发生，故能够大大提高了控制装置1在人机交互时的准确度。

实施例四：

图4是本发明实施例四提供的被控设备的结构示意图。为了清楚的描述本发明实施例四提供的被控设备2，请参见图4。

参见图4，具体地，该被控设备2中包括本发明提供的控制装置(例如本发明实施例三提供的控制装置1)。具体地，控制装置1能够实现本发明提供的人机交互方法(例如实施例一提供的人机交互方法和/或实施例二提供的人机交互方法)。

因此，本实施例提供的被控设备2能够在人机交互过程中，在接收的语音信号中不包括唤醒词时，能够通过用户的面部朝向或用户与被控设备2的相对方位进行判断是否需要对用户发出的语音信号进行语音指令识别后，根据语音指令对自身进行相应的控制，因此本实施例提供的被控设备2能够有效的避免用户在自然语言说话(例如聊天)时，误触发被控设备2的情况发生，故能够大大提高了被控设备2在人机交互时的准确度。

实施例五：

图5是本发明实施例五提供的控制装置的结构示意图。为了清楚的描述本发明实施例五提供的控制装置，请参见图5。

本发明实施例五提供的控制装置，包括处理器a101，该处理器a101用于执行存储器a201中存储的计算机程序a6以实现如实施例一或实施例二所描述的人机交互方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法、装置或程序产品。因此，本发明的各个方面可以具体实现以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件结合的实施方式，这里可以系统称为“电路”、“模块”、“系统”。

在一实施方式中，本实施例提供的控制装置可以包括至少一个处理器a101，以及至少一个存储器a201。其中，至少一个处理器a101可以称为处理单元a1，至少一个存储器a201可以称为存储单元a2。具体地，存储单元a2存储有计算机程序a6，当该计算机程序a6被处理单元a1执行时，使得本实施例提供的控制装置实现如上所描述的人机交互方法的步骤，例如图2中所示的步骤s206：判断语音指令中是否包括控制对象。又例如图1中所示的步骤s105：判断语音信号源的特征是否符合预设的特征。

在一实施方式中，控制装置还包括连接不同组件(例如处理器a101和存储器a201)的总线。在一实施方式中，总线可以表示几类总线结构中的一种或多种，包括存储器总线或者存储控制器总线、外围总线等等。

参见图5，在一实施方式中，本实施例中的提供的控制装置包括多个存储器a201(简称为存储单元a2)，存储单元a2可以包括例如随机存取存储器(ram)和/或高速缓存存储器和/或只读存储器(rom)等等。

参见图5，在一实施方式中，本实施例中的控制装置还可以包括一个通信接口(例如i/o接口a4)，该通信接口可以用于与外部设备(例如电脑、智能终端等)进行通信。

参见图5，在一实施方式中，本实施例中的控制装置还可以包括显示装置和/或输入装置(例如图示的触控显示屏a3)。

参见图5，在一实施方式中，本实施例提供的控制装置还可以包括网络适配器a5，该网络适配器a5可以用于与一个或多个网络(例如局域网(lan)，广域网(wan)和/或公共网络等等)进行通信。如图5所示，网络适配器a5可以通过线路与控制装置的其他组件进行通信。

本实施例提供的控制装置可以实现本发明提供的人机交互方法的步骤，具体实施方式及有益效果可以参考本发明实施例一和实施例二，在此将不再赘述。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时能够实现例如实施例一或实施例二的人机交互方法的步骤。或者，该计算机程序被处理器执行时能够实现例如上述控制器及被控设备的功能。

在本实施例中，计算机可读存储介质中的计算机程序被处理器执行时，实现上述人机交互方法的步骤或控制器或被控设备的功能，在此将不再赘述，具体实施方式及有益效果可参考本发明实施例一至本发明实施例四。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种人机交互方法，其特征在于，所述人机交互方法包括：

接收语音信号；

检测语音信号源的特征，所述语音信号源的特征包括发出所述语音信号的用户的面部朝向或所述用户与被控装置的相对方位；

判断所述语音信号是否包括唤醒词；

若所述语音信号包括所述唤醒词，则对所述语音信号进行语音指令识别，以获取语音指令；

若所述语音信号不包括所述唤醒词，则在所述语音信号源的特征符合预设的特征时，进入所述对所述语音信号进行语音指令识别，以获取语音指令的步骤，其中，所述预设的特征包括所述用户的面部朝向所述被控设备/控制装置的正面，或所述用户位于所述被控设备的正面。

2.如权利要求1所述的人机交互方法，其特征在于，检测语音信号源的特征的步骤中，包括：

检测所述用户的眼球聚焦于所述被控设备/所述控制装置的时间；

所述预设的特征还包括所述用户的眼球聚焦于所述被控设备/所述控制装置的时间大于阈值。

3.如权利要求1所述的人机交互方法，其特征在于，所述判断所述语音信号是否包括唤醒词的步骤之前，包括：

获取所述用户的人脸，并判断所述用户的人脸是否与预先存储的特定的人脸匹配；

当所述用户的人脸与所述预先存储的特定人脸匹配时，进入判断所述语音信号是否包括所述唤醒词的步骤；

当所述人脸与所述预先存储的特定人脸不匹配时，返回所述接收语音信号的步骤。

4.如权利要求1所述的人机交互方法，其特征在于，在所述对所述语音信号进行语音指令识别，以获取语音指令步骤之后，包括：

根据所述语音指令，进入人机对话模式，输出相应的对话语音和/或根据所述语音指令进行相应的控制。

5.如权利要求1所述的人机交互方法，其特征在于，所述预设的特征包括所述用户的面部朝向所述控制装置的正面；

在所述对所述语音信号进行语音指令识别，以获取语音指令步骤之后，包括：

判断所述语音指令中是否包括控制对象，所述控制对象包括至少一个家用设备；

若所述语音指令中不包括所述控制对象，则根据当前的环境信息和/或当前的时间信息获取家电控制大数据，并根据所述家电控制大数据获取至少一个家用设备，及每个家用设备相应的家电控制信息，以分别根据所述家电控制信息控制相应的家用设备；

若所述语音指令中包括所述控制对象，则根据所述语音指令对所述控制对象进行相应的控制。

6.如权利要求5所述人机交互方法，其特征在于，所述若所述语音指令中包括所述控制对象，则对所述控制对象进行相应的控制的步骤，包括：

检测所述用户的人脸，并获取与所述人脸对应的所述控制对象的历史控制信息，以根据所述历史控制信息对所述控制对象进行相应的控制，所述控制对象包括电视机和/或音乐播放器和/或电灯。

7.一种控制装置，其特征在于，包括：

语音信号接收模块，用于接收语音信号；

特征检测模块，与所述语音信号接收模块相连，用于检测语音信号源的特征，所述语音信号源的特征包括发出所述语音信号的用户的面部朝向或所述用户与被控装置的相对方位；

唤醒词识别模块，与所述语音信号接收模块相连，用于判断所述语音信号是否包括唤醒词；

语音指令获取模块，用于当所述语音信号包括所述唤醒词时，对所述语音信号进行语音指令识别，以获取语音指令，且当所述语音信号不包括所述唤醒词，则在所述语音信号源的特征符合预设的特征时，对所述语音信号进行语音指令识别，以获取语音指令，其中，所述预设的特征包括所述用户的面部朝向所述被控设备/控制装置的正面，或所述用户位于所述被控设备的正面。

8.一种被控设备，其特征在于，所述被控设备包括如权利要求7所述的控制装置。

9.一种控制装置，其特征在于，所述控制装置包括处理器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-5中任一项所述人机交互方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述人机交互方法的步骤。

技术总结

本发明属于智能控制技术领域，涉及人机交互方法、控制装置、被控装置及存储介质，其中，人机交互方法包括：接收语音信号。检测语音信号源的特征，语音信号源的特征包括发出语音信号的用户的面部朝向或用户与被控装置的相对方位。判断语音信号是否包括唤醒词。若语音信号包括唤醒词，则对语音信号进行语音指令识别，以获取语音指令。若语音信号不包括唤醒词，则在语音信号源的特征符合预设的特征时，进入对语音信号进行语音指令识别，以获取语音指令的步骤，其中，预设的特征包括用户的面部朝向被控设备/控制装置的正面，或用户位于被控设备的正面。因此，本发明能够有效的避免误触发被控设备的情况发生，从而提高了人机交互方法的准确度。

技术研发人员：郭涛;杨春阳

受保护的技术使用者：上海博泰悦臻网络技术服务有限公司

技术研发日：.08.21

技术公布日：.02.28

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。