1.一种基于C3D‑SA的视频表情识别方法,包括如下步骤:
S100:通过三维卷积神经网络对视频序列进行表情特征提取,得到表情特征矩阵;
S200:连接自注意力机制层学习所述表情特征矩阵中的特征之间的相关性,得到注意力权重值,再加权所述表情特征矩阵,得到加权后的表情特征矩阵;
S300:连接全局均值池化层对所述加权后的表情特征矩阵进行特征映射并降维,再通过丢失层随机丢弃所述加权后的表情特征矩阵中的部分特征值,得到新的表情特征矩阵;
S400:连接全连接层对所述新的表情特征矩阵进行特征映射,得到最终的特征矩阵,将所得最终的特征矩阵通过softmax层输出表情识别的标签,所述特征映射为进行加权操作;
所述三维卷积神经网络是去除3层全连接层的3D VGG‑16模型;
所述自注意力机制层是多头自注意力机制。
2.根据所述权利要求1的方法,所述3D VGG‑16模型的卷积部分有5个卷积块,每个卷积块由2层或3层卷积核大小相同的卷积层级联,所有的卷积层都使用3X3X3卷积核;每层卷积后进行批量归一化BN;批量归一化后使用Relu激活函数;每个卷积块后接一层最大池化层对特征映射进行特征提取并降低特征尺度。
3.根据所述权利要求1的方法,所述多头自注意力机制的头数为8,通过自注意力机制
1 2 3 4 5 6 7 8
输入序列中每个xi得到8个输出bi ,bi ,bi ,bi ,bi ,bi ,bi ,bi ,然后将所述8个输出向量首尾相连进行拼接,再通过线性转换得到输出结果bi。
4.根据所述权利要求1的方法,所述表情识别的标签为视频表情的类别,包括:高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。
5.根据所述权利要求1的方法,所述视频序列的每次输入视频数据大小为8*3*10*48*
48,其中,批尺寸batch size=8,视频帧数=10,图像大小为通道数channels=3,图像宽度width=48,图像高度height=48。
6.根据所述权利要求1的方法,所述丢失层的丢失率rate=0.5。
7.根据所述权利要求1的方法,在步骤S100之前还包括:对原始的视频序列进行人脸检测,去除与表情识别无关的非人脸区域,获得人脸区域的视频序列。
8.根据所述权利要求7的方法,利用opencv中的CascadeClassifier级联分类器对输入的原始的视频序列进行人脸检测,检测出人脸区域。