利索能及
我要发布
收藏
专利号: 2024109007796
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述系统包括:获取单元:用于基于采集设备获取多模态抑郁症数据,基于处理器对所述多模态抑郁症数据进行预处理,获得多模态数据;

第一特征单元:用于对所述多模态数据进行特征提取获得单模态的低级抑郁特征;对所述低级抑郁特征进行特征提取,获得单模态的高级抑郁特征;

融合单元:用于时间维度、空间维度和所述高级抑郁特征,获得时空融合抑郁特征;

关系图单元:用于所述时空融合抑郁特征和所述高级抑郁特征,获得模态融合关系图E;

第二特征单元:用于对所述模态融合关系图E的模态的平衡关系进行处理,获得多模态抑郁特征;

预测单元:用于将所述多模态抑郁特征输入抑郁预测模型,获得预测结果,将所述预测结果传输至显示设备。

2.根据权利要求1所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述获取单元具体包括:数据单元:用于基于所述采集设备获取所述多模态抑郁症数据;

划分单元:用于基于文件格式划分所述多模态抑郁症数据获得第一数据,所述第一数据包括音频数据、视频数据和文本数据;

音频单元:用于对所述音频数据进行特征提取获得音频特征,所述音频特征包括第一音频特征MFCC、第二音频特征eGeMAPS和第三音频特征Wav2Vec2;

视频单元:用于对所述视频数据进行特征提取获得视频特征,所述视频特征包括第一视频特征AUs、第二视频特征Gaze和第三视频特征Pose;

文本单元:用于对所述文本数据进行分词和编码获得第二数据,基于预训练模型DepRoBERTa对所述第二数据进行特征提取获得文本特征;

切片单元:用于对所述音频特征、所述视频特征和所述文本特征进行切片,获得所述多模态数据。

3.根据权利要求2所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述第一特征单元具体包括:第一高级单元:用于分别统一所述音频特征和所述视频特征的维度,获得第一特征和第二特征,分别增强所述第一特征和所述第二特征的权重,获得高级音频抑郁特征Fa和高级视频抑郁特征Fv;

第二高级单元:用于捕捉所述文本特征的上下文之间的关联,获得关联文本特征,对所述关联文本特征进行加权,获得所述高级文本抑郁特征Ft;

第三高级单元:用于基于所述高级音频抑郁特征Fa、所述高级视频抑郁特征Fv和所述高级文本抑郁特征Ft获得所述高级抑郁特征。

4.根据权利要求3所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述融合单元具体包括:第一融合单元:用于将所述高级音频抑郁特征Fa和所述高级视频抑郁特征Fv分别进行拼接获得音频融合特征F1a和视频融合特征F1v;将所述音频融合特征F1a和所述视频融合特征F1v分别进行转置,获得音频融合特征张量A和视频融合特征张量B;

第二融合单元:用于基于所述时间维度和所述空间维度,将所述音频融合特征张量A和所述视频融合特征张量B分别进行融合,获得时空音频融合抑郁特征F2a和时空视频融合抑郁特征F2v;基于所述时空音频融合抑郁特征F2a和所述时空视频融合抑郁特征F2v获得所述时空融合抑郁特征;

获得所述音频融合特征F1a和所述视频融合特征F1a的第一计算方式为:其中,F1a和F1v分别表示音频融合特征和视频融合特征, 表示拼接,和 分别表示第一音频特征MFCC、第二音频特征eGeMAPS和第三音频特征Wav2Vec2, 和 分别表示第一视频特征AUs、第二视频特征Gaze和第三视频特征Pose。

5.根据权利要求4所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述时空音频融合抑郁特征F2a的具体方式包括:基于所述时间维度,将所述音频融合特征张量A输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得第一融合特征A1;将所述第一融合特征A1进行转置,获得第一特征张量A2;基于所述空间维度,将所述第一特征张量A2输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得所述时空音频融合抑郁特征F2a;

获得所述时空音频融合抑郁特征F2a的第二计算方式为:

T

A1=MLP(ηMLP((F1a)));

T

F2a=MLP(ηMLP((A1)));

获得所述时空视频融合抑郁特征F2v的具体步骤包括:

基于所述时间维度,将所述视频融合特征张量B输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得第二融合特征B1;将所述第二融合特征B1进行转置,获得第二特征张量B2;基于所述空间维度,将所述第二特征张量B2输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得所述时空视频融合抑郁特征F2v;

获得所述时空视频融合抑郁特征F2v的第三计算方式为:

T

B1=MLP(ηMLP((F1v)));

T

F2v=MLP(ηMLP((B1)));

其中,A1和B1分别表示音频融合特征张量和所述视频融合特征张量,F1a和F1v分别表示音频融合特征和视频融合特征,F2a和F2v分别表示时空音频融合抑郁特征和时空视频融合抑郁特征,MLP()表示前馈神经网络,η表示激活函数,T表示转置。

6.根据权利要求5所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述关系图单元具体包括:单模态单元:用于将所述时空音频融合抑郁特征F2a、所述时空视频融合抑郁特征F2v和所述高级文本抑郁特征Ft分别定义为一个节点张量,获得听觉节点张量、视觉节点张量和a v t a v t文本节点张量,分别记为N=F2a、N=F2v、N=Ft,第一节点集合V1定义为:V1={N,N,N},基于所述第一节点集合V1获得单模态节点层;

双模态单元:用于基于所述单模态节点层,获取所述第一节点集合V1的任意一个节点张量,获得第一节点张量,将所述第一节点张量与非所述第一节点张量进行相似性结合,获av at va vt ta tv得第二节点集合V2,所述第二节点集合V2定义为:V2={N ,N ,N ,N ,N ,N };获取所述第二节点集合V2的任意一个节点张量,获得第二节点张量,将所述第二节点张量与构成所述第二节点张量的所有所述第一节点张量之间均建立一条边,获得第一矩阵E1,基于所述第一矩阵E1获得双模态节点层;

多模态单元:用于将所有所述第二节点张量进行两两拼接,获得聚合特征矩阵E2,所述av at va vt ta tv聚合特征矩阵E2定义为:E2={M ,M ,M ,M ,M ,M };将所述单模态节点层、所述双模态节点层和所述聚合特征矩阵E2的节点进行聚合,获得第三节点集合V3,所述第三节点集合av at va vt ta tvV3定义为:V3={f ,f ,f ,f ,f ,f };将所述第三节点集合V3的任意两个结点张量之间均建立一条边,获取所述第三节点集合V3的任意一个节点张量,获得第三节点张量,将所述第三节点张量与所述第三节点张量的父节点张量之间建立一条边,获得第二矩阵E3,基于所述第二矩阵E3获得多模态节点层;

融合关系图单元:用于基于所述第一矩阵E1和所述第二矩阵E3获得所述模态融合关系图E,所述模态融合关系图E定义为:E={E1,E3}。

7.根据权利要求6所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述第二特征单元具体包括:节点单元:用于基于所述第一节点集合V1、所述第二节点集合V2和所述第三节点集合V3,获得节点集合V,所述节点集合V定义为:V={V1,V2,V3};

权重单元:用于计算所述节点集合V和所述模态融合关系图E的任意两个相邻节点的注意力权重系数;对所述注意力权重系数进行归一化获得权重系数;

抑郁特征单元:用于基于所述权重系数,对所述节点集合V和所述模态融合关系图E的节点进行加权求和,获得所述多模态抑郁特征。

8.根据权利要求3所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述高级音频抑郁特征和所述高级视频抑郁特征的第四计算方式为:获得所述高级文本抑郁特征Ft的第五计算方式为:

ht=BiLSTM(Xt);

其中, 和 分别表示第一特征和第二特征,MLP()表示前馈神经网络, 和 分别表示音频特征和视频特征, 和 分别表示高级音频抑郁特征和高级视频抑郁特征,softmax()表示归一化指数函数,BiLSTM()表示双向长短期记忆网络,ht表示关联文本特征,Xt表示文本特征,Ft表示高级文本抑郁特征,T表示转置,Wq、Wk和Wv均表示可学习的权重矩阵参数,Dk表示缩放点系数,i分别对应音频特征的第一音频特征MFCC、第二音频特征eGeMAPS、第三音频特征Wav2Vec2和视频特征的第一视频特征AUs、第二视频特征Gaze、第三视频特征Pose。

9.根据权利要求6所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述第二节点集合V2的第六计算方式为:其中, 表示相关参数, 和 均表示第一节点集合V1的节点张量, 表示节点张xy量 的维度,T表示转置,N 表示第二节点集合V2的节点张量,n表示当前节点张量 的长度,j表示节点张量 的第j个序列;

获得所述聚合特征矩阵E2的第七计算方式为:

xy xy

M ={cross_att(N ,N),x,y∈{a,v,t}且x≠y,N∈V2};

其中,cross_att()表示相关函数,softmax()表示归一化指数函数,d表示节点张量N1xy的维度,N1、N2和N均表示第二节点集合的节点张量,V2表示第二节点集合,T表示转置,M 表示聚合特征矩阵E2的节点张量;

获得所述第三节点集合V3的第八计算方式为:

fusion(z)=z⊙e(z),z∈E2;

其中,MaxPool(z)b,c、AvgPool(z)b,c、e(z)和fusion(z)均表示相关函数,z表示输入特征,b和c表示输入特征在输出特征图的位置,e和g表示输入特征在池化窗口内的相对位置,表示池化窗口大小,η表示激活函数;MLP()表示前馈神经网络, 表示拼接,⊙表示聚合,maxwindow表示最大池化窗口,poolwindow表示平均池化窗口,E2表示聚合特征矩阵。

10.根据权利要求7所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述多模态抑郁特征的第九计算方式为:q p q p

S(N,N)=LeakyReLU(a[WN||WN]);

h k

N=∑k∈μαq,pWN;

q p q p

其中,S(N,N)表示相关函数,αq,p表示相关参数,N和N表示节点q和节点q的邻居节点p,LeakyReLU()表示LeakyReLU函数,||表示拼接,a表示注意力参数,W表示可学习的权重k h矩阵,μ表示节点q的邻居节点集合,k表示μ中第k个序列,N表示节点q的第k个特征序列,N表示多模态抑郁特征。