利索能及
我要发布
收藏
专利号: 2021108018037
申请人: 北华航天工业学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度卷积和注意力机制的唇语识别方法,其特征在于,包括步骤:S1)对大型唇读数据集进行预处理,获取唇部识别图像;所述大型唇读数据集中含有多个唇读视频;

S2)将唇部识别图像批量输入到3D卷积网络模型,进行时空特征提取;

所述S2中,3D卷积网络模型的构建,具体包括:

设定一层3D卷积,卷积核大小为(5,7,7),步幅为(1,2,2),填充为(2,3,3),然后进入批归一化处理,再经过一层激活函数,最后送入最大池化层处理,该池化层的内核大小为(1,

3,3),步幅为(1,2,2),3D卷积计算公式如下:其中: 为第i层中位置(x,y,z)处第j个featuremap中的值,relu为激活函数,b为偏置,m为i‑1层featuremap连接到当前层featuremap的索引, 中Pi、Qi、Ri分别为卷积核的宽度、高度和时间维度;

S3)将唇部识别图像提取的时空特征输入卷积和注意力机制的混合网络模型,进行局部和全局的空间特征提取;

所述S3中,卷积和注意力机制的混合网络模型的构建,具体包括:经过卷积标记嵌入层处理,嵌入核大小为(7,7),步幅为(2,2),个数为128;

进入卷积transformer模块,该模块由卷积投影层、多头注意力层、全连接层组成,一共经过三步堆叠;其中:第一步卷积投影层核大小为(3,3),个数为128,注意力为1头,深度为

1;第二步卷积投影层核大小为(3,3),个数为256,注意力为3头,深度为4;第三步卷积投影层核大小为(3,3),个数为512,注意力为6头,深度为16;

S4)将提取的空间特征输入到双向门控循环单元,进行长短期特征序列提取;

S5)将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数;

所述S5中,将提取的长短期特征序列输入到多层感知机,获取各个类别的置信度分数,具体包括:将提取的长短期特征序列输入到多层感知机中,其结构为输入维度2048,输出维度

1000,以一个展平成一维张量的形式接收,然后乘以权重矩阵,权重矩阵乘法产生输出特征,得到各个类别的置信度分数;

S6)基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值;

所述S6中,基于各个类别的置信度分数,经过带有标签平滑机制的交叉熵损失函数输出识别概率值,具体包括:基于各个类别的置信度分数,将获取的输出特征与真实标签送入带有标签平滑机制的交叉熵损失函数中输出识别概率值,传统的交叉熵损失函数计算公式如下:其中:p为预测概率值,q为1‑p,y为真实标签值;在带有标签平滑机制的交叉熵损失函数中把q值改为:其中:ε为一个小常数取为0.1,N为类别数。

2.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法,其特征在于,所述S1中,对大型唇读数据集进行预处理,获取唇部识别图像,具体包括:在每一轮上对输入唇读视频帧的顺序进行打乱,将其大小调整为96×96,并随机裁剪为88×88,作为3D卷积模型的输入;

在3D卷积模型每次训练迭代中选择部分视频帧,对每个视频帧以0.5的概率水平翻转转换成灰度图;

对灰度图进行归一化处理,获取唇部识别图像。

3.根据权利要求1所述的基于深度卷积和注意力机制的唇语识别方法,其特征在于,所述S4中,双向门控循环单元的设定,具体包括:设定输入维度为512,隐层维度为1024,共有3层,输出维度为2048,门控循环单元计算公式如下:z z r r

其中:zt=σ(Wxt+U ht‑1),rt=σ(Wxt+Uht‑1) z为更新门,r为复位门, 为单元值,h为隐藏值,W和U分别为输入和隐藏的权重矩阵。