买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种语音识别方法、装置、系统、服务器及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种语音识别方法、装置、系统、服务器及存储介质

￥13000

专利号： 2021110486425

申请人：杭州海康威视数字技术股份有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-10

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种语音识别方法，其特征在于，所述方法包括：获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，所述语音信号包括所述多个发言者同时发言所产生的语音信号；

对所述发言图像进行识别，确定每个发言者的方位信息以及唇动信息；

针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，所述语音识别模型为基于多用户语音样本训练得到的，所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。

2.根据权利要求1所述的方法，其特征在于，所述语音信号为麦克风阵列所采集的语音信号，所述麦克风阵列包括多个阵元；

所述将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息的步骤，包括：将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，以使所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息。

3.根据权利要求2所述的方法，其特征在于，所述语音识别模型包括：残差层、第一拼接层、卷积层、第二拼接层以及识别层；

所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息的步骤，包括：所述残差层对所述唇动信息进行特征提取，得到唇部特征，并输入所述第二拼接层；

所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接，并将拼接后的结果输入至所述卷积层；

所述卷积层基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征输入所述第二拼接层；

所述第二拼接层将所述语音特征与所述唇部特征进行拼接，并将拼接后的特征输入所述识别层；

所述识别层基于所述拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出所述文本信息。

4.根据权利要求1所述的方法，其特征在于，在所述获取多个发言者的图像、语音信号以及每个发言者的声纹信息的步骤之前，所述方法还包括：获取会议中的会议图像，并对所述会议图像进行唇动检测，确定正在发言的目标发言者；

基于预先建立的人脸库，确定所述目标发言者的身份信息；

获取所述目标发言者的语音信号，并提取该语音信号的声纹信息；

将所述声纹信息与所述身份信息对应记录。

5.根据权利要求1所述的方法，其特征在于，所述对所述发言图像进行识别，确定每个发言者的方位信息的步骤，包括：对所述发言图像进行识别，确定每个发言者的面部像素点；

针对每个发言者，基于该发言者的所述面部像素点在所述发言图像中位置、预先标定的拍摄所述发言图像的图像采集设备的参数以及语音采集设备的位置，确定该发言者相对于所述语音采集设备的角度信息，作为该发言者的方位信息。

6.根据权利要求1‑5任一项所述的方法，其特征在于，所述语音识别模型的训练方式，包括：

获取所述多用户语音样本以及初始模型；

将每个多用户语音样本中包括每个用户所对应的文本信息，作为样本标签；

将每个所述多用户语音样本输入所述初始模型，得到预测文本信息；

基于每个所述多用户语音样本对应的预测文本信息与样本标签之间的差异，调整所述初始模型的模型参数，直到所述初始模型收敛，得到所述语音识别模型。

7.根据权利要求1‑5任一项所述的方法，其特征在于，所述方法还包括：基于所述每个发言者对应的文本信息，生成会议记录。

8.一种语音识别装置，其特征在于，所述装置包括：第一获取模块，用于获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，所述语音信号包括所述多个发言者同时发言所产生的语音信号；

第一确定模块，用于对所述发言图像进行识别，确定每个发言者的方位信息以及唇动信息；

识别模块，用于针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，所述语音识别模型为基于多用户语音样本训练得到的，所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。

9.根据权利要求8所述的装置，其特征在于，所述语音信号为麦克风阵列所采集的语音信号，所述麦克风阵列包括多个阵元；

所述识别模块包括：

第一识别单元，用于将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，以使所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息。

10.根据权利要求9所述的装置，其特征在于，所述语音识别模型包括：残差层、第一拼接层、卷积层、第二拼接层以及识别层；

所述第一识别单元包括：

第一提取子单元，用于所述残差层对所述唇动信息进行特征提取，得到唇部特征，并输入所述第二拼接层；

第一拼接子单元，用于所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接，并将拼接后的结果输入至所述卷积层；

第二提取子单元，用于所述卷积层基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征输入所述第二拼接层；

第二拼接子单元，用于所述第二拼接层将所述语音特征与所述唇部特征进行拼接，并将拼接后的特征输入所述识别层；

识别子单元，用于所述识别层基于所述拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出所述文本信息。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：第二获取模块，用于获取会议中的会议图像，并对所述会议图像进行唇动检测，确定正在发言的目标发言者；

第二确定模块，用于基于预先建立的人脸库，确定所述目标发言者的身份信息；

第三获取模块，用于获取所述目标发言者的语音信号，并提取该语音信号的声纹信息；

记录模块，用于将所述声纹信息与所述身份信息对应记录。

12.根据权利要求8所述的装置，其特征在于，所述第一确定模块包括：第二识别单元，用于对所述发言图像进行识别，确定每个发言者的面部像素点；