1.基于时间偏移残差网络的唇语识别方法,其特征在于,包括训练数据预处理阶段、神经网络模型训练阶段和预测识别阶段;
所述训练数据预处理阶段包括以下步骤S1~S3:
S1、选取包含嘴唇的原始图片并对其进行检测与裁剪,得到嘴唇区域图片序列;
S2、对嘴唇区域图片序列进行数据增强;
S3、对数据增强后的图片序列进行归一化,得到预处理后的训练数据;
所述神经网络模型训练阶段包括以下步骤S4~S6:
S4、将预处理后的训练数据作为神经网络模型编码器的输入,输出得到编码过后的特征向量序列和编码器状态向量;
S5、将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程;
S6、基于反向传播算法,采用导师驱动的方式最小化交叉熵损失训练整个神经网络模型,得到训练完成的神经网络模型;
所述预测识别阶段包括以下步骤S7~S9:
S7、对待识别图片进行预处理,并将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量;
S8、将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码器的输入,当解码出结尾标志符时,结束解码过程;
S9、拼接训练完成的神经网络模型解码器的所有输出,得到唇语识别结果。
2.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S1包括以下分步骤:S11、从训练数据集中选取部分包含嘴唇的原始图片,标记嘴唇区域矩形框作为嘴唇检测训练标签;
S12、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练;
S13、使用训练完成的模型检测训练数据集中所有原始图片的嘴唇区域,得到嘴唇区域图片序列。
3.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S2具体为:对嘴唇区域图片序列进行随机平移、旋转、缩放、水平翻转和随机改变明暗度,得到数据增强后的图片序列。
4.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S3具体为:对数据增强后的图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的训练数据。
5.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S4中的神经网络模型编码器包括基于TSM的2DResnet和BiLSTM;
所述步骤S4包括以下分步骤:
S41、在2DResnet的残差连接块中添加时间偏移模块TSM;
S42、通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征,输出特征向量序列;
S43、将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征,输出得到编码过后的特征向量序列和编码器状态向量。
6.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S5中的神经网络模型解码器采用基于注意力的长短时记忆网络结构LSTM;
所述步骤S5包括以下分步骤:
S51、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量;
S52、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:其中ci表示第i个加权平均特征向量;
S53、将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si;
S54、令计数值i加1,重复步骤S53,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
7.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S6包括以下分步骤:S61、计算神经网络模型解码器所有位置交叉熵损失的平均值,计算公式为:其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值,T0表示包含结尾标记词的输出语句长度,yl表示第l个正确类别的one-hot向量,表示所有类别的预测概率;
S62、基于反向传播算法,计算神经网络模型所有参数的梯度;
S63、使用基于动量的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小化平均交叉熵损失,直到算法收敛,得到训练完成的神经网络模型。
8.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S7包括以下分步骤:S71、选取部分待识别图片,标记嘴唇区域矩形框作为嘴唇检测训练标签;
S72、基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练;
S73、使用训练完成的模型检测所有待识别图片的嘴唇区域,得到嘴唇区域图片序列;
S74、对嘴唇区域图片序列三个通道的像素值进行归一化,将每一个像素值除以255,映射到0到1的数值范围,得到预处理后的待识别图片序列;
S75、将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入,输出编码过后的特征向量序列和编码器状态向量。
9.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S8包括以下分步骤:S81、将编码器状态向量s作为神经网络模型解码器的初始输入状态s0,并基于注意力计算公式计算当前输入状态与编码过后的特征向量的相关度,计算公式为:其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度,eij表示未归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度,eik表示未归一化的第i个输入状态si与第k个编码过后的特征向量hk的相关度,T表示编码过后的特征向量序列长度,且有:eij=f(si-1,hj)
其中f(·)表示单层的全连接神经网络函数,si-1表示第i-1个输入状态,hj表示第j个编码过后的特征向量;
S82、对所有编码过后的特征向量根据相关度进行加权平均,得到加权平均特征向量,计算公式为:其中ci表示第i个加权平均特征向量;
S83、将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网络模型解码器的输入xi,并将其输入至神经网络模型解码器,输出得到第i个词的预测类别yi和当前第i个输入状态si;
S84、令计数值i加1,重复步骤S83,直到神经网络模型解码器输出标签类别为结尾标志符时,结束解码过程。
10.根据权利要求1所述的唇语识别方法,其特征在于,所述步骤S9包括以下分步骤:S91、拼接训练完成的神经网络模型解码器的所有输出类别,并去掉结尾标志符;
S92、将所有输出类别转化为对应的词或字,得到唇语识别结果。