1.一种基于深度时空网络决策融合的人脸表情识别方法,其特征在于,包括:对于原始人脸表情数据集的每张人脸表情图像进行预处理,针对预处理后的每张人脸表情图像,提取其面部标志点向量,并选出其峰值表情图像;
根据面部标志点向量得到人脸表情的全局时序特征,对人脸表情的全局时序特征进行人脸表情分类,得到第一人脸表情分类结果,具体为:将面部标志点向量按照眉毛、眼睛、鼻子和嘴巴划分为四个子向量;
将四个子向量分别输入到四个双向长短时记忆网络BiLSTM中,分别提取人脸表情的局部时序特征;
融合人脸表情的局部时序特征得到人脸表情的全局时序特征;
利用softmax分类器对人脸表情的全局特征进行分类,得到第一人脸表情分类结果;
根据选取的峰值表情图像得到人脸表情的空间特征,对人脸表情的空间特征进行人脸表情分类,得到第二人脸表情分类结果,具体为:利用超分辨率测试序列提取缝制表情图像的浅层空间特征图;
利用SENet对浅层空间特征图分配通道权重,将加权特征图作为人脸表情的空间特征;
利用softmax分类器对人脸表情的空间特征进行分类,得到第二人脸表情分类结果;
对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合,得到最终的人脸表情分类结果。
2.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法,其特征在于,所述对于原始人脸表情数据集的每张人脸表情图像进行预处理,具体为:对于原始人脸表情数据集的每张人脸表情图像进行人脸裁剪处理,去除与人脸表情无关的图像,得到人脸表情图像序列;
对人脸表情图像序列进行灰度处理,只保留面部表情特征;
对灰度处理后的人脸表情图像序列进行数据增强,采用旋转和翻转的方式将数据集扩充14倍。
3.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法,其特征在于,所述将四个子向量分别输入到四个双向长短时记忆网络BiLSTM中,分别提取人脸表情的局部时序特征,具体为:将四个子向量各输入一个BiLSTM中,在BiLSTM的输出层得到眉毛、眼睛、鼻子和嘴巴的局部时序特征,分别对应为Feb、Fey、Fno和Fmo;
以眉毛的局部时序特征Feb为例,第t张输入图像的BiLSTM隐藏层的计算公式如下:fbt=σ[wbf(hbt‑1,xbt)+bbf] (1)fbt是遗忘门,通过sigmoid激活函数决定前一状态有多少信息需要丢失,wbf是遗忘门的计算权重,bbf表示遗忘门的计算偏置,xbt是输入的向量,hbt‑1表示以第t‑1张图像为输入的BiLSTM隐藏层输出结果;
ibt=σ[wbi(hbt‑1,xbt)+bbi] (2)ibt是输入门,决定了当前时间节点需要保留的信息,其中σ是sigmoid激活函数,tanh是双曲正切激活函数,wbi是输入门的计算权重,bbi表示输入门的计算偏置,xbt是输入向量,hbt‑1表示以第t‑1张图像为输入的BiLSTM隐藏层输出结果;
是当前备选更新单元,它包含当前时间节点的所有更新信息,具体保留多少信息则由当前更新单元cbt决定,其中 是当前备选更新单元的计算权重, 表示当前备选更新单元的计算偏置,xbt是输入向量,hbt‑1表示以第t‑1张图像为输入的BiLSTM隐藏层输出结果;
obt=σ[wbo(hbt‑1,xbt)+bbo] (5)cbt是当前更新单元,获取了备选更新单元的可用信息,通过遗忘门fbt获取了上一张图像cbt‑1的可用信息,并使用sigmoid激活函数来确定当前更新单元的输出,obt表示输出门,将obt控制的输出信息与经过tanh处理后的cbt相乘,得到第t张输入图像的前向LSTM隐藏层输出 其中wbo是输出门的计算权重,bbo表示输出门的计算偏置,xbt是输入向量,hbt‑1表示以第t‑1张图像为输入的BiLSTM隐藏层输出结果,其后向隐藏层输出 的计算方式与前向相同;
合并BiLSTM前向和后向的隐藏层输出 和 得到涵盖前后向信息的BiLSTM隐藏层输出hbt,将其作为局部时序特征Feb;
4.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法,其特征在于,利用SENet对浅层空间特征图分配通道权重,具体过程为:A×B×G
步骤(1):针对特征图U 的每一个特征图通道g,计算一个聚合统计量Vg,其中g∈G,则Vg的计算公式为:其中A和B表示每一个特征通道g中的二维特征图的维度长和宽,ug(a,b)表示浅层特征图U中第g个二维特征矩阵;
步骤(2):通过利用Vg中聚合的信息训练参数w,用于给特征图通道分配权重,每一个特征图通道g的权重计算量Sg的计算过程为:Sg=σ(w2δ(w1Vg)) (14)
其中,δ代表relu激活函数, r是一个超参数;
步骤(3):将步骤(2)中得到的特征图通道g的权重计算量Sg和原始空间特征图Ug相乘可得加权特征图fs(g),其公式为:fs(g)=SgUg (15);
步骤(4):面部表情的空间特征FS=[fs(1),fs(2),…,fs(G)],其中g∈G,fs(g)表示第g个特征通道的二维特征图;
此时,FS表示维度为A×B×G的加权空间特征。
5.如权利要求1所述的基于深度时空网络决策融合的人脸表情识别方法,其特征在于,对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合的计算公式为:Prediction(k)=argmax(αPT(k)+(1‑α)PS(k)) (18)。
6.一种基于深度时空网络决策融合的人脸表情识别系统,其特征在于,包括:数据预处理模块,被配置为对于原始人脸表情数据集的每张人脸表情图像进行预处理,针对预处理后每张人脸表情图像,提取其面部标志点向量,并选取峰值表情图像;
时序特征提取模块,被配置为根据面部标志点向量得到人脸表情的全局时序特征,对人脸表情的全局时序特征进行人脸表情分类,得到第一人脸表情分类结果,具体为:将面部标志点向量按照眉毛、眼睛、鼻子和嘴巴划分为四个子向量;
将四个子向量分别输入到四个双向长短时记忆网络BiLSTM中,分别提取人脸表情的局部时序特征;
融合人脸表情的局部时序特征得到人脸表情的全局时序特征;
利用softmax分类器对人脸表情的全局特征进行分类,得到第一人脸表情分类结果;
空间特征提取模块,被配置为根据选取的峰值表情图像得到人脸表情的空间特征,对人脸表情的空间特征进行人脸表情分类,得到第二人脸表情分类结果,具体为:利用超分辨率测试序列提取缝制表情图像的浅层空间特征图;
利用SENet对浅层空间特征图分配通道权重,将加权特征图作为人脸表情的空间特征;
利用softmax分类器对人脸表情的空间特征进行分类,得到第二人脸表情分类结果;
决策融合模块,被配置为对第一人脸表情分类结果和第二人脸表情分类结果进行决策级融合,得到最终的人脸表情分类结果。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑5中任一项所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑5中任一项所述的一种基于深度时空网络决策融合的人脸表情识别方法中的步骤。