1.一种语音识别方法,其特征在于,所述方法包括:获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息,其中,所述语音信号包括所述多个发言者同时发言所产生的语音信号;
对所述发言图像进行识别,确定每个发言者的方位信息以及唇动信息;
针对每个发言者,将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型,得到该发言者对应的文本信息,其中,所述语音识别模型为基于多用户语音样本训练得到的,所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。
2.根据权利要求1所述的方法,其特征在于,所述语音信号为麦克风阵列所采集的语音信号,所述麦克风阵列包括多个阵元;
所述将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型,得到该发言者对应的文本信息的步骤,包括:将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型,以使所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性,从所述语音信号中提取该发言者对应的语音特征,并将所述语音特征结合所述唇动信息进行语音识别,得到该发言者对应的文本信息。
3.根据权利要求2所述的方法,其特征在于,所述语音识别模型包括:残差层、第一拼接层、卷积层、第二拼接层以及识别层;
所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性,从所述语音信号中提取该发言者对应的语音特征,并将所述语音特征结合所述唇动信息进行语音识别,得到该发言者对应的文本信息的步骤,包括:所述残差层对所述唇动信息进行特征提取,得到唇部特征,并输入所述第二拼接层;
所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接,并将拼接后的结果输入至所述卷积层;
所述卷积层基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性,从所述语音信号中提取该发言者对应的语音特征,并将所述语音特征输入所述第二拼接层;
所述第二拼接层将所述语音特征与所述唇部特征进行拼接,并将拼接后的特征输入所述识别层;
所述识别层基于所述拼接后的特征进行语音识别,得到该发言者的对应的文本信息,并输出所述文本信息。
4.根据权利要求1所述的方法,其特征在于,在所述获取多个发言者的图像、语音信号以及每个发言者的声纹信息的步骤之前,所述方法还包括:获取会议中的会议图像,并对所述会议图像进行唇动检测,确定正在发言的目标发言者;
基于预先建立的人脸库,确定所述目标发言者的身份信息;
获取所述目标发言者的语音信号,并提取该语音信号的声纹信息;
将所述声纹信息与所述身份信息对应记录。
5.根据权利要求1所述的方法,其特征在于,所述对所述发言图像进行识别,确定每个发言者的方位信息的步骤,包括:对所述发言图像进行识别,确定每个发言者的面部像素点;
针对每个发言者,基于该发言者的所述面部像素点在所述发言图像中位置、预先标定的拍摄所述发言图像的图像采集设备的参数以及语音采集设备的位置,确定该发言者相对于所述语音采集设备的角度信息,作为该发言者的方位信息。
6.根据权利要求1‑5任一项所述的方法,其特征在于,所述语音识别模型的训练方式,包括:
获取所述多用户语音样本以及初始模型;
将每个多用户语音样本中包括每个用户所对应的文本信息,作为样本标签;
将每个所述多用户语音样本输入所述初始模型,得到预测文本信息;
基于每个所述多用户语音样本对应的预测文本信息与样本标签之间的差异,调整所述初始模型的模型参数,直到所述初始模型收敛,得到所述语音识别模型。
7.根据权利要求1‑5任一项所述的方法,其特征在于,所述方法还包括:基于所述每个发言者对应的文本信息,生成会议记录。
8.一种语音识别装置,其特征在于,所述装置包括:第一获取模块,用于获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息,其中,所述语音信号包括所述多个发言者同时发言所产生的语音信号;
第一确定模块,用于对所述发言图像进行识别,确定每个发言者的方位信息以及唇动信息;
识别模块,用于针对每个发言者,将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型,得到该发言者对应的文本信息,其中,所述语音识别模型为基于多用户语音样本训练得到的,所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。
9.根据权利要求8所述的装置,其特征在于,所述语音信号为麦克风阵列所采集的语音信号,所述麦克风阵列包括多个阵元;
所述识别模块包括:
第一识别单元,用于将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型,以使所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性,从所述语音信号中提取该发言者对应的语音特征,并将所述语音特征结合所述唇动信息进行语音识别,得到该发言者对应的文本信息。
10.根据权利要求9所述的装置,其特征在于,所述语音识别模型包括:残差层、第一拼接层、卷积层、第二拼接层以及识别层;
所述第一识别单元包括:
第一提取子单元,用于所述残差层对所述唇动信息进行特征提取,得到唇部特征,并输入所述第二拼接层;
第一拼接子单元,用于所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接,并将拼接后的结果输入至所述卷积层;
第二提取子单元,用于所述卷积层基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性,从所述语音信号中提取该发言者对应的语音特征,并将所述语音特征输入所述第二拼接层;
第二拼接子单元,用于所述第二拼接层将所述语音特征与所述唇部特征进行拼接,并将拼接后的特征输入所述识别层;
识别子单元,用于所述识别层基于所述拼接后的特征进行语音识别,得到该发言者的对应的文本信息,并输出所述文本信息。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:第二获取模块,用于获取会议中的会议图像,并对所述会议图像进行唇动检测,确定正在发言的目标发言者;
第二确定模块,用于基于预先建立的人脸库,确定所述目标发言者的身份信息;
第三获取模块,用于获取所述目标发言者的语音信号,并提取该语音信号的声纹信息;
记录模块,用于将所述声纹信息与所述身份信息对应记录。
12.根据权利要求8所述的装置,其特征在于,所述第一确定模块包括:第二识别单元,用于对所述发言图像进行识别,确定每个发言者的面部像素点;
确定单元,用于针对每个发言者,基于该发言者的所述面部像素点在所述发言图像中位置、预先标定的拍摄所述发言图像的图像采集设备的参数以及语音采集设备的位置,确定该发言者相对于所述语音采集设备的角度信息,作为该发言者的方位信息。
13.根据权利要求8‑12任一项所述的装置,其特征在于,所述语音识别模型通过模型训练模块预先训练得到,所述模型训练模块包括:样本获取单元,用于获取所述多用户语音样本以及初始模型;
标签确定单元,用于将每个多用户语音样本中包括每个用户所对应的文本信息,作为样本标签;
文本预测单元,用于将每个所述多用户语音样本输入所述初始模型,得到预测文本信息;
参数调整单元,用于基于每个所述多用户语音样本对应的预测文本信息与样本标签之间的差异,调整所述初始模型的模型参数,直到所述初始模型收敛,得到所述语音识别模型。
14.根据权利要求8‑12任一项所述的装置,其特征在于,所述装置还包括:生成模块,用于基于所述每个发言者对应的文本信息,生成会议记录。
15.一种语音识别系统,其特征在于,所述系统包括服务器和终端,所述终端设置有图像采集设备以及语音采集设备,其中:所述图像采集设备,用于在会议中采集图像;
所述语音采集设备,用于在会议中采集语音信号;
所述终端,用于将所述图像和所述语音信号发送至所述服务器;
所述服务器,用于接收所述图像和所述语音信号,并执行权利要求1‑7任一项所述的方法步骤。
16.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1‑7任一所述的方法步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑7任一所述的方法步骤。