利索能及
我要发布
收藏
专利号: 2025102489330
申请人: 石家庄铁道大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合跨模态语义信息的视频摘要方法,其特征在于,包括以下步骤:S1:读取输入视频,提取用于表示静态视觉内容的图像帧序列,以及反映动态运动状态变化的运动帧序列;

S2:通过跨模态特征提取网络分别提取视频帧的静态特征和动态特征,所述跨模态特征提取网络包括时间流网络和空间流网络,空间流网络用于提取静态特征,时间流网络用于提取动态特征;

所述空间流网络用于提取反映视频帧中物体类别、场景语义及视觉内容的静态语义特征;所述时间流网络用于提取动态特征,包括提取运动RGB特征和光流特征两种动态特征,所述运动RGB特征用于捕捉场景切换及动态目标的颜色变化,所述光流特征用于描述帧间运动方向与速度;

S3:通过时空卷积关联注意力机制生成时空重要性注意力图;

所述时空卷积关联注意力机制用于融合帧内的空间信息和帧间的时间信息,生成反映帧特征时空重要性的注意力图;首先将空间流和时间流提取的特征进行堆叠,形成二维结构的帧特征表示;将空间流的静态特征和时间流的动态特征沿着特征维度进行拼接,得到高维的帧特征表示;然后利用卷积神经网络对堆叠后的帧特征进行处理;卷积神经网络能够同时捕捉帧内的空间信息和帧间的时间信息,生成反映帧特征时空重要性的注意力图,注意力图的每个元素表示对应帧特征的重要性;注意力图用于后续的特征加权和重要性分数预测;

S4:引入跨模态动态融合模块,根据当前帧的语义特征动态调整静态与动态模态的权重比例,并生成融合跨模态语义的混合特征表示;

S5:引入语义一致性校正器,优化跨模态特征与静态特征之间的语义一致性;

S6:构建目标函数,训练视频摘要生成模型,并根据模型预测的重要性分数生成视频摘要。

2.如权利要求1所述的融合跨模态语义信息的视频摘要方法,其特征在于,所述跨模态动态融合模块根据当前帧的语义特征动态计算静态与动态模态权重的比例,通过所述比例对静态与动态模态权重进行调整,并将调整后的权重与帧特征融合,生成融合跨模态语义的混合特征表示,进而预测每一帧的重要性分数。

3.如权利要求1所述的融合跨模态语义信息的视频摘要方法,其特征在于,所述语义一致性校正器动态调整跨模态特征和视频静态特征之间的语义匹配度。

4.如权利要求1所述的融合跨模态语义信息的视频摘要方法,其特征在于,所述目标函数定义为:,

其中Lreward是奖励函数项,用于评估生成摘要中帧的重要性和覆盖度;Lreg是正则项,用于防止模型过拟合;Lsem是语义一致性损失项,用于优化跨模态特征与静态特征之间的语义一致性; 和 是超参数,用于平衡不同损失项的权重;

奖励函数项用于评估生成摘要与标注摘要之间的相似度,从而衡量模型生成摘要的质量,具体计算公式如下:,

其中 N是视频帧的总数; 是第i 帧的标注重要性分数; 是模型预测的第 i 帧的重要性分数,范围在 [0, 1] 之间;

正则项用于防止模型过拟合,采用权重衰减方法,权重衰减的正则项具体计算公式如下:,

其中 表示模型的所有参数;

语义一致性损失项用于优化跨模态特征与静态特征之间的语义一致性,减少运动特征中的噪声干扰,具体计算公式如下:,

其中 是融合静态和动态特征后的混合特征向量, 是空间流提取的静态特征向量,N是视频帧的总数, 表示向量的欧几里得范式。