1.一种基于面部视频序列的抑郁障碍识别方法,其特征在于,包括:对视频序列进行分段处理并进行人脸图像检测,获取每段视频中包含的人脸图像的关键点和动作单元;
对每段视频中包含的人脸图像的关键点和动作单元分别构建图结构,得到每段视频的关键点图和动作单元图;
对每段视频的关键点图和动作单元图分别进行卷积,并基于注意力机制对卷积得到的图结构特征进行增强,并将增强后的每段视频的关键点特征图和面部单元特征图进行融合,得到每段视频的融合特征图;
基于每段视频的融合特征图得到每段视频的片段级表征,基于所有片段级表征建立视频级表征,并对所述视频级表征进行抑郁障碍识别,得到识别结果;
其中,对关键点图和动作单元图分别进行卷积,包括:将关键点图和动作单元图分别输入到独立的时空图卷积模块中进行图卷积,其中,每个时空卷积模块包含对图的空间结构进行建模的图卷积GCN和建模时序信息的时序卷积TCN,时序卷积TCN以沿时间维度的普通2D卷积操作实现,图卷积GCN的实现过程包括:由节点集合V和边集合E构成的图G=(V,E)的图卷积定义为:其中,A表示可学习的邻接矩阵,A以全一矩阵初始化并在训练中更新,I为单位矩阵,D为度矩阵,D的对角线元素Dii是归一化邻接矩阵 第i行的和,Xin是输入的特征矩阵,W是用于线性变换的可学习权重矩阵,ReLU表示激活函数,Xout是输出的特征矩阵;
基于注意力机制对卷积得到的图结构特征进行增强,包括:通过空间注意力和时间注意力对特征图进行增强,其中,空间注意力以图结构特征为输入,表示为:其中,Xout为图结构特征,C′表示空间维度,N表示关键点个数,T表示帧数;
通过空间注意力对特征图进行增强,包括:
计算每个结点在时间和通道维度上的平均值,并通过全连接层和Sigmoid函数计算每个结点的注意力得分,并将其与sin相乘;
所述空间注意力以时序卷积的输出为输入,并计算每一帧在结点和通道维度上的平均值;
所述方法还包括:
通过残差层对增强的特征图进行处理。
2.如权利要求1所述的方法,其特征在于,给定关键点序列CL,N,T分别表示坐标维度、关键点个数和帧数,设定相对位置集合每个相对位置 的表达式为:
t
其中, 表示第t帧中鼻尖位置的坐标,h表示两眼左右内眼角的距离;
关键点图表示为:
GL=(VL,EL)
其中,VL=R为结点的几何,边集合 描述了每一帧内部结点间的连接。
3.如权利要求1所述的方法,其特征在于,将增强后的每段视频的关键点特征图和面部单元特征图进行融合,得到每段视频的融合特征图,包括:通过交叉注意力获得动作单元特征图在关键点特征图上的投影,并将其与关键点特征相拼接,得到融合特征;
基于融合特征构建融合特征图。
4.如权利要求1所述的方法,其特征在于,基于每段视频的融合特征图得到每段视频的片段级表征,包括:将每段视频的融合特征图通过至少一个堆叠的时空卷积模块,并通过全局平均池化,得到每段视频的片段级表征;
所述基于所有片段级表征建立视频级表征,包括:将所有片段级表征拼接,并利用自注意力捕捉片段间关系,形成视频级表征;
所述对所述视频级表征进行抑郁障碍识别,得到识别结果,包括:将所述视频级表征输入到全连接层,输出识别结果,其中,所述识别结果包括是否具有抑郁倾向及其严重程度。
5.一种基于面部视频序列的抑郁障碍识别系统,其特征在于,包括:视频处理模块,用于对视频序列进行分段处理并进行人脸图像检测,获取每段视频中包含的人脸图像的关键点和动作单元;
图构建模块,用于对每段视频中包含的人脸图像的关键点和动作单元分别构建图结构,得到每段视频的关键点图和动作单元图;
图处理模块,用于对每段视频的关键点图和动作单元图分别进行卷积,并基于注意力机制对卷积得到的图结构特征进行增强,并将增强后的每段视频的关键点特征图和面部单元特征图进行融合,得到每段视频的融合特征图;
识别模块,用于基于每段视频的融合特征图得到对应的片段级表征,基于所有片段级表征建立视频级表征,并对所述视频级表征进行抑郁障碍识别,得到识别结果;
其中,对关键点图和动作单元图分别进行卷积,包括:将关键点图和动作单元图分别输入到独立的时空图卷积模块中进行图卷积,其中,每个时空卷积模块包含对图的空间结构进行建模的图卷积GCN和建模时序信息的时序卷积TCN,时序卷积TCN以沿时间维度的普通2D卷积操作实现,图卷积GCN的实现过程包括:由节点集合V和边集合E构成的图G=(V,E)的图卷积定义为:其中,A表示可学习的邻接矩阵,A以全一矩阵初始化并在训练中更新,I为单位矩阵,D为度矩阵,D的对角线元素Dii是归一化邻接矩阵 第i行的和,Xin是输入的特征矩阵,W是用于线性变换的可学习权重矩阵,ReLU表示激活函数,Xout是输出的特征矩阵;
基于注意力机制对卷积得到的图结构特征进行增强,包括:通过空间注意力和时间注意力对特征图进行增强,其中,空间注意力以图结构特征为输入,表示为:其中,Xutt为图结构特征,C′表示空间维度,N表示关键点个数,T表示帧数;
通过空间注意力对特征图进行增强,包括:
计算每个结点在时间和通道维度上的平均值,并通过全连接层和Sigmoid函数计算每个结点的注意力得分,并将其与sin相乘;
所述空间注意力以时序卷积的输出为输入,并计算每一帧在结点和通道维度上的平均值;
所述系统还包括残差处理模块,具体用于:
通过残差层对增强的特征图进行处理。
6.如权利要求5所述的系统,其特征在于,给定关键点序列{CL,N,T}分别表示坐标维度、关键点个数和帧数,设定相对位置集合每个相对位置 的表达式为:
t
其中, 表示第t帧中鼻尖位置的坐标,h表示两眼左右内眼角的距离;
关键点图表示为:
GL=(VL,EL)
其中,VL=R为结点的几何,边集合 描述了每一帧内部结点间的连接。