利索能及
我要发布
收藏
专利号: 2023103530193
申请人: 石家庄铁道大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-06
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于语义自挖掘的视频摘要生成方法,其特征在于,包括下述步骤:S1,读取视频帧序列,并利用特征提取器提取帧级视觉特征;

S2,构建视频摘要生成模型,将所述帧级视觉特征送入所述视频摘要生成模型中生成预测得分向量,所述视频摘要生成模型包括:图表征模块,所述图表征模块以所述帧级视觉特征作为输入,该模块通过在节点间建立时序边、视觉相似边和视觉差异边实现节点间充分的消息传递,使所述视频摘要生成模型完整地了解视频的故事线;

语义内容编码模块,所述语义内容编码模块以所述帧级视觉特征作为输入,该模块利用注意力机制从粗略的语义表征出发,动态地将完整的帧级视觉特征序列编码为简洁、信息丰富的精细的语义表征,实现由粗到细的语义感知过程;

信息交互模块,所述信息交互模块以所述图表征模块的输出和所述语义内容编码模块的输出共同作为输入,该模块用于将视频本身潜在的语义信息嵌入至捕获到的时间线索中,进一步提升模型对视频中关键内容的感知能力;

线性回归模块,所述线性回归模块将所述信息交互模块的输出作为输入,该模块利用全连接层将高维特征映射为预测得分向量来表示每帧被选择作为摘要结果的概率;

S3,构建均方误差损失函数,增加预测得分与人工标注得分之间的一致性,并迭代优化网络参数,训练所述视频摘要生成模型;

S4,利用S3训练得到的视频摘要生成模型对输入视频执行上述S1和S2,根据预测得分向量生成关键镜头集合。

2.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法,其特征在于,构建所述图表征模块,包括:将所述帧级视觉特征建模为图模型,其中图节点集由各个特征向量构成,图边集表示特征向量之间的交互关系;

构建用于建模局部时间线索的时序边和用于建模非局部时间线索的视觉相似边和视觉差异边;

在时序边上采用一维卷积运算,在视觉相似边和视觉差异边上采用二维卷积运算进行消息传递,并通过相加的方式输出时间线索。

3.根据权利要求2所述的基于语义自挖掘的视频摘要生成方法,其特征在于,所述时序边将图节点按照时间顺序进行连接,所述视觉相似边和所述视觉差异边由K最近邻算法计算得到,将与当前节点视觉上相似和不相似的节点进行连接。

4.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法,其特征在于,构建所述语义内容编码模块,包括:将所述帧级视觉特征沿时间维度进行全局平均池化,得到粗略的语义表征向量;

将所述粗略的语义表征向量作为查询特征,将所述帧级视觉特征作为键特征和值特征,利用多头注意力层实现由粗到细的语义表征编码,得到精细的语义表征向量。

5.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法,其特征在于,构建所述信息交互模块,包括:创建长度为的瓶颈特征,将所述精细的语义表征沿时间维度进行复制,得到与所述帧级视觉特征长度相等的语义表征序列;

第一信息交互层,所述第一信息交互层将瓶颈特征作为查询特征,时间线索或语义表征序列作为键特征和值特征,利用多头注意力机制输出第一交互特征,并采用逐元素求和的方式得到瓶颈特征与第一交互特征的融合结果,得到中间交互特征;

第二特征交互层,所述第二特征交互层将时间线索或语义表征序列作为查询特征,中间交互特征作为键特征和值特征,利用多头注意力机制输出第二交互特征。

6.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法,其特征在于,所述根据预测得分向量生成关键镜头集合,包括:采用核时序分割算法检测视觉变化点并计算每个镜头内帧级预测得分的均值,得到镜头级预测得分向量;

创建背包问题,采用动态规划算法选择关键镜头得到所述关键镜头集合。