买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于全局记忆检索与双流动态融合的视频摘要生成方法

利索能及专利检索

电话：15618600796

登录 / 免费注册利索能及授权登录

利索能及

查出售查求购

我要发布

专利交易专利求购

收藏

基于全局记忆检索与双流动态融合的视频摘要生成方法

￥21600

专利号： 2025107537881

申请人：石家庄铁道大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，包括以下步骤：S1：对输入视频帧序列进行特征提取，得到视频时序特征；

S2：将视频时序特征输入视频摘要生成模型，通过模型预测帧级重要性分数，所述视频摘要生成模型包括：全局记忆检索模块：所述全局记忆检索模块以所述视频时序特征作为输入，通过可学习的全局内存矩阵进行注意力检索，生成融合全局语义的增强语义特征，具体操作步骤如下：构建可学习的全局内存矩阵，其中K为内存容量，Dm为内存维度，表示维度为m行n列的实数矩阵；

注意力检索：

通过线性投影将视频时序特征映射为查询向量，其中T为时序长度，D为输入特征维度；

计算查询向量Q与全局内存矩阵M的相似度矩阵，经Softmax归一化生成注意力权重；

根据注意力权重A对全局内存矩阵M进行特征检索，生成全局语义特征；

所述特征检索操作如下：

将所述注意力权重与所述全局内存矩阵进行矩阵乘法运算，得到全局语义特征；

所述特征检索按如下规则计算：

，

其中表示第k个内存块的特征向量，Dm为内存维度，K为内存容量，t表示第t个查询向量；

将全局语义特征Fg通过线性投影映射到维度D，得到，并与视频时序特征进行残差连接，输出增强语义特征Fe，具体计算公式如下：，

其中LayerNorm(·)表示层归一化操作，Fg'表示全局语义特征经线性投影后的特征，F'表示视频时序特征，α为预设残差权重，取值范围为0.1≤α≤0.5；

双流动态融合模块：所述双流动态融合模块以所述增强语义特征作为输入，分别通过前向卷积路径与反向卷积路径提取时序显著性特征，并基于动态门控融合，得到时序融合特征；

多任务决策模块：所述多任务决策模块以所述时序融合特征作为输入，通过多任务预测头并行生成帧级重要性分数、片段边界偏移量和中心置信度；

S3：将所述帧级重要性分数与中心置信度进行加权融合，获得最终帧级重要性得分；

S4：对所述帧级重要性得分执行时序非极大值抑制处理，抑制相邻高得分帧中的冗余帧，根据处理后的结果选择关键帧，并生成最终视频摘要。

2.如权利要求1所述的基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，所述双流动态融合模块包括：前向卷积路径：对输入特征进行一维卷积Conv1D操作，依次经过卷积核大小为3、通道数减半的第一卷积层，ReLU激活函数，以及恢复原通道数的第二卷积层，得到特征Ffw；

反向卷积路径：将输入特征沿时序维度翻转后，采用与所述前向卷积路径步骤相同的卷积结构处理，再翻转回原始时序顺序，得到特征Fbw；

动态门控融合：先将双向特征Ffw与Fbw沿通道维度拼接，再通过全连接层与Sigmoid函数生成时序自适应的门控权重，其中为可学习参数，T为时序长度，表示Sigmoid函数，bg表示偏置项；

按门控权重进行双向特征融合，得到融合特征，其中表示逐元素乘法，G为门控权重；

将融合特征Fbi与增强语义特征Fe进行残差连接，输出时序融合特征Ft，具体计算公式如下：，

其中LayerNorm(·)表示层归一化操作，α为预设残差权重，取值范围为0.1≤α≤0.5。

3.如权利要求1所述的基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，所述多任务决策模块包括：分类分支：通过全连接层将特征映射至1维，经Sigmoid函数输出帧级重要性分数，其中T为时序长度；

回归分支：通过全连接层将特征映射至2维，经指数函数输出非负片段边界偏移量；

中心分支：通过全连接层将特征映射至1维，经Sigmoid函数输出中心置信度。

4.如权利要求1所述的基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，所述加权融合满足：，

其中为最终帧级重要性得分，T为时序长度，⊙表示逐元素乘法，Pcls为帧级重要性分数，Pctr为中心置信度。

5.如权利要求2所述的基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，所述全局内存矩阵的初始化方式为：采用均值为0、标准差为0.02的正态分布随机初始化，并经过层归一化处理。

6.如权利要求2所述的基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，所述相似度矩阵计算操作如下：T

将所述查询向量与所述全局内存矩阵的转置矩阵M进行矩阵乘法运算，生成相似度矩阵，其中St,k表示第t个查询向量与第k个内存块的相似度得分；

所述相似度得分通过向量点积计算，即，其中Dm为内存维度。

7.如权利要求2所述的基于全局记忆检索与双流动态融合的视频摘要生成方法，其特征在于，所述Softmax归一化满足：对所述相似度矩阵S的每一行应用Softmax函数，使得每个内存块的权重At,k满足，所述Softmax函数定义为：，

其中exp(·)表示自然指数函数，St,k表示第t个查询向量与第k个内存块的相似度得分，K为内存容量。

推荐专利

一种融合跨模态语义信息的视频摘要方法

播放视频摘要的方法及装置

基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法

一种层次化跨模态交互的无监督视频摘要生成方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售