1.一种基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,包括以下步骤:S1:对输入视频帧序列进行特征提取,得到视频时序特征;
S2:将视频时序特征输入视频摘要生成模型,通过模型预测帧级重要性分数,所述视频摘要生成模型包括:全局记忆检索模块:所述全局记忆检索模块以所述视频时序特征作为输入,通过可学习的全局内存矩阵进行注意力检索,生成融合全局语义的增强语义特征,具体操作步骤如下:构建可学习的全局内存矩阵 ,其中K为内存容量,Dm为内存维度, 表示维度为m行n列的实数矩阵;
注意力检索:
通过线性投影将视频时序特征 映射为查询向量 ,其中T为时序长度,D为输入特征维度;
计算查询向量Q与全局内存矩阵M的相似度矩阵,经Softmax归一化生成注意力权重;
根据注意力权重A对全局内存矩阵M进行特征检索,生成全局语义特征 ;
所述特征检索操作如下:
将所述注意力权重 与所述全局内存矩阵 进行矩阵乘法运算,得到全局语义特征 ;
所述特征检索按如下规则计算:
,
其中 表示第k个内存块的特征向量,Dm为内存维度,K为内存容量,t表示第t个查询向量;
将全局语义特征Fg通过线性投影映射到维度D,得到 ,并与视频时序特征进行残差连接,输出增强语义特征Fe,具体计算公式如下:,
其中LayerNorm(·)表示层归一化操作,Fg'表示全局语义特征经线性投影后的特征,F'表示视频时序特征,α为预设残差权重,取值范围为0.1≤α≤0.5;
双流动态融合模块:所述双流动态融合模块以所述增强语义特征作为输入,分别通过前向卷积路径与反向卷积路径提取时序显著性特征,并基于动态门控融合,得到时序融合特征;
多任务决策模块:所述多任务决策模块以所述时序融合特征作为输入,通过多任务预测头并行生成帧级重要性分数、片段边界偏移量和中心置信度;
S3:将所述帧级重要性分数与中心置信度进行加权融合,获得最终帧级重要性得分;
S4:对所述帧级重要性得分执行时序非极大值抑制处理,抑制相邻高得分帧中的冗余帧,根据处理后的结果选择关键帧,并生成最终视频摘要。
2.如权利要求1所述的基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,所述双流动态融合模块包括:前向卷积路径:对输入特征进行一维卷积Conv1D操作,依次经过卷积核大小为3、通道数减半的第一卷积层,ReLU激活函数,以及恢复原通道数的第二卷积层,得到特征Ffw;
反向卷积路径:将输入特征沿时序维度翻转后,采用与所述前向卷积路径步骤相同的卷积结构处理,再翻转回原始时序顺序,得到特征Fbw;
动态门控融合:先将双向特征Ffw与Fbw沿通道维度拼接 ,再通过全连接层与Sigmoid函数生成时序自适应的门控权重 ,其中为可学习参数,T为时序长度,表示Sigmoid函数,bg表示偏置项;
按门控权重进行双向特征融合,得到融合特征 ,其中 表示逐元素乘法,G为门控权重;
将融合特征Fbi与增强语义特征Fe进行残差连接,输出时序融合特征Ft,具体计算公式如下:,
其中LayerNorm(·)表示层归一化操作,α为预设残差权重,取值范围为0.1≤α≤0.5。
3.如权利要求1所述的基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,所述多任务决策模块包括:分类分支:通过全连接层将特征映射至1维,经Sigmoid函数输出帧级重要性分数,其中T为时序长度;
回归分支:通过全连接层将特征映射至2维,经指数函数输出非负片段边界偏移量;
中心分支:通过全连接层将特征映射至1维,经Sigmoid函数输出中心置信度 。
4.如权利要求1所述的基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,所述加权融合满足:,
其中 为最终帧级重要性得分,T为时序长度,⊙表示逐元素乘法,Pcls为帧级重要性分数,Pctr为中心置信度。
5.如权利要求2所述的基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,所述全局内存矩阵的初始化方式为:采用均值为0、标准差为0.02的正态分布随机初始化,并经过层归一化处理。
6.如权利要求2所述的基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,所述相似度矩阵计算操作如下:T
将所述查询向量 与所述全局内存矩阵 的转置矩阵M进行矩阵乘法运算,生成相似度矩阵 ,其中St,k表示第t个查询向量与第k个内存块的相似度得分;
所述相似度得分通过向量点积计算,即 ,其中Dm为内存维度。
7.如权利要求2所述的基于全局记忆检索与双流动态融合的视频摘要生成方法,其特征在于,所述Softmax归一化满足:对所述相似度矩阵S的每一行应用Softmax函数,使得每个内存块的权重At,k满足,所述Softmax函数定义为:,
其中exp(·)表示自然指数函数,St,k表示第t个查询向量与第k个内存块的相似度得分,K为内存容量。