1.一种基于改进时空卷积网络的唇语识别方法,其特征在于,包括:实时获取视频数据,视频数据输入到训练好的基于改进时空卷积网络的唇语识别模型中,输出唇语识别结果;
对基于改进时空卷积网络的唇语识别模型进行训练的过程包括:S1:获取视频数据,从视频数据中截取包含面部的区域,得到面部区域视频数据,对面部区域视频数据进行预处理,将预处理后的数据进行划分,得到训练集和测试集;
S2:采用SST‑ResNet网络对训练集中的数据依次进行局部静态空间特征提取和时序特征提取,得到局部静态空间特征和时序特征;根据局部静态空间特征和时序特征得到全局动态空间特征;
S3:采用IN‑TCN模块对全局动态空间特征进行处理,得到用于结果分类的序列;
S4:将用于结果分类的序列输入到全连接层进行分类,得到唇语识别结果;
S5:根据唇语识别结果计算模型的损失函数,将测试集中的数据输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。
2.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,对面部区域视频数据进行预处理的过程包括:重新设置每一帧视频数据的尺寸大小,并对每一帧视频数据进行翻转和归一化处理,得到预处理后的视频数据。
3.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,采用SST‑ResNet网络对训练集中的数据进行局部静态空间特征提取包括:采用SST‑ResNet网络中卷积核1*7*7的空间滤波器来提取数据的空间分量,得到训练集中唇部区域的局部静态空间特征。
4.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,采用SST‑ResNet网络对训练集中的数据进行时序特征提取包括:采用SST‑ResNet网络中卷积核为5*1*1的时间滤波器来提取数据的时间分量,得到训练集中视频帧的时序特征。
5.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,根据局部静态空间特征和时序特征得到全局动态空间特征包括:采用SST‑ResNet网络中的SST_ResNet_block分析局部静态空间特征和时序特征的时空相关性,得到训练集中唇部区域的全局动态空间特征。
6.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,采用IN‑TCN模块对全局动态空间特征进行处理包括:采用IN‑TCN网络中的维度控制层对提取到的全局动态空间特征进行聚合与降维操作,得到降维后的时序特征;采用不同尺度的卷积层对将维后的特征进行时序特征提取,得到不同尺度的时序特征;对不同尺度的时序特征进行信息融合,得到用于结果分类的序列。
7.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,唇语识别结果表示为:
R=softmax(fc(Z(x)))其中,R表示最终分类结果,Z(x)表示经过IN‑TCN网络特征提取后的序列,fc(Z(x))表示全连接层。
8.根据权利要求1所述的一种基于改进时空卷积网络的唇语识别方法,其特征在于,模型的损失函数公式为:
其中,N表示样本数,Li表示第i个样本的loss,M表示类别数,i表示第i个样本,yic表示样本i是否属于类别c,piC表示样本i属于类别c的预测概率。