利索能及
我要发布
收藏
专利号: 2021114344584
申请人: 江苏大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于:音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐,提取对齐后的人物、音频、文本、关键帧以及物品的特征;

将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;

所述预测人物与人物以及人物与位置之间的关系,具体为:若两个人物同时出现在一个关键帧中,生成关系对T=Tα∪Tβ,其中Tα表示人物‑人物之间的关系,Tβ表示人物‑位置之间的关系;

若两个人物没有同时出现在一个关键帧中,而人物所在背景中存在同类物品,对话涉及相同实体和主题,则认为人物‑人物、人物‑位置之间存在联系,生成异构图G={V,E},其中:V是节点集合,包括关系对T、物品、实体和主题节点,E是边集合,若关系涉及到相同物品、主题或实体,则在关系对T‑关系对T、关系对T‑物品、关系对T‑主题、关系对T‑实体之间建立一条边;

所述异构图G按照特征传播规则 进行特征传播,得到关系的特征,利用 预测人物与人物、人物与位置之间的关系;

(l)

其中:Bs表示关注矩阵,其第v行第v′列的元素为δvv′s;H 表示第1层所有关系对T节点(l)

的特征, 表示第1层属于语义s的节点的特征,Ws 是可训练的参数,σ是激活函数,sr,k是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,pr,k表示预测得分,R表示关系的种类。

2.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度,所述模态内注意力机制的计算方法为:

其中:Fi表示一个物品或一条语句的特征,ca、Wa、ba是可训练的参数,tanh是激活函数,ei是Fi的权重,N是物品或语句的数目,αi是标准化的权重,Fm是物品或文本的整体特征。

3.根据权利要求2所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,所述模态级注意力机制的计算方法为:

其中:Fm表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;

cb、Wb、bb是可训练的参数;tanh是激活函数;em是Fm的权重;M是特征的种类数;βm是标准化的权重;Fv是一个关系对T的整体特征。

4.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,使用语义级注意力机制对关系对T‑实体、关系对T‑物品、关系对T‑主题赋予相应的权重,其中语义级注意力机制的计算方法为:其中:v是一个关系节点,v′是v的邻居节点集合Nv中的一个元素,A’是对称规范化的邻接矩阵,Fv′是节点v′的特征,Fs表示Nv中节点特征之和,Fv是节点v的特征,||表示连接操作,σ是激活函数,μs是可训练的参数,es表示语义s的权重,γs表示标准化的权重,S表示不同的语义,包括物品、实体和主题三种不同的语义。

5.根据权利要求4所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,使用节点注意力机制捕获不同邻居节点的重要性,并降低噪声节点的权重,节点级注意力机制的计算方法为:其中:σ是激活函数,μn是可训练的参数,evv′s表示节点v′对v的权重,N1表示节点v的邻居节点数目,δvv′s表示标准化的权重。

6.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述多模态异构图注意力网络的损失函数为:其中:pr,k表示预测得分,R表示关系的种类,K表示视频片段的数量,yk表示真实的标签,

1(·)是二进制指示符。

7.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述音频对应的文本是通过将待分析视频中的音频信号进行分割,得到音频片段并生成时间戳;利用所述时间戳对由音频转录成的文本进行切分得到的。

8.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块;所述人物和位置的识别模块用于:①使用在Market1501数据集上预训练的ResNet50模型提取人物和关键帧的特征;②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度,为人物和位置附加基本事实的ID;所述人物和音频的对齐模块用于:使用Dlib的68个面部标志性预测器捕捉人物嘴唇的形状,并根据脸部大小的相对垂直形状变化来估计嘴唇运动,以预测目标人物是否为说话人,从而对音频片段和相应的文本分配人物ID。