买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于FD-SPnet网络的视频关键帧提取方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于FD-SPnet网络的视频关键帧提取方法

面议

专利号： 2023102605703

申请人：浙江理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于FD‑SPNet网络的视频关键帧提取方法，其特征在于：方法包括如下步骤：

步骤1) 建立FD‑SPNet网络；

步骤2) 将若干带有动作类别标签的动作视频输入FD‑SPNet网络中训练，获得训练完成的FD‑SPNet网络；

步骤3) 将待测动作视频输入训练完成的FD‑SPNet网络中，训练完成的FD‑SPNet网络输出待测动作视频中若干待提取的视频关键帧的特征信息，将各个待提取的视频关键帧的特征信息输入Fast‑NMS网络中，Fast‑NMS网络输出待测动作视频中若干最终的视频关键帧，实现视频关键帧的提取；所述的步骤1)中，建立的FD‑SPNet网络包括依次连接的粗略帧选取模型FDNet和深度学习帧选取模型SPNet；每个带有动作类别标签的动作视频输入FD‑SPNet网络中的粗略帧选取模型FDNet后进行视频关键帧的粗略选取后输出粗略选取的视频关键帧的序列，根据粗略选取的视频关键帧的序列将粗略选取的视频关键帧输入深度学习帧选取模型SPNet中，深度学习帧选取模型SPNet输出每个带有动作类别标签的动作视频中若干待提取的视频关键帧的特征信息；所述的步骤2)中，将若干带有动作类别标签的动作视频输入FD‑SPNet网络中训练，首先将每个带有动作类别标签的动作视频输入FD‑SPNet网络中的粗略帧选取模型FDNet后进行视频关键帧的粗略选取后输出粗略选取的视频关键帧的序列，针对每个带有动作类别标签的动作视频，具体如下：步骤2.1) 首先计算获得动作视频中的所有视频帧的向量值，获得各视频帧的向量值均值、向量值最大值和向量值最小值，将向量值等于向量值最大值和向量值最小值以及向量值最接近向量值均值的视频帧提取为最大值向量max帧、最小值向量min帧和平均向量avg帧，将最大值向量max帧、最小值向量min帧和平均向量avg帧作为三张固定帧；

步骤2.2) 采用迭代帧差法依次将动作视频中除了步骤2.1)中的三张固定帧的其它视频帧以固定帧为基础进行帧差操作后获得若干视频帧的序列；

步骤2.3) 采用滑动帧差法依次将动作视频中除了步骤2.1)中的三张固定帧的其它视频帧以固定帧为基础进行帧差操作后获得若干视频帧的序列；

步骤2.4) 将步骤2.2)中获得的各个视频帧的序列和步骤2.3)中获得的各个视频帧的序列做或操作，最终获得若干关键帧粗略帧选取的视频帧的序列。

2.根据权利要求1所述的一种基于FD‑SPNet网络的视频关键帧提取方法，其特征在于：

所述的步骤2.2)中，采用迭代帧差法依次将动作视频中除了步骤2.1)中的三张固定帧的其它视频帧以三张固定帧为基础进行帧差操作，具体为将动作视频中位于三张固定帧之前的若干视频帧、位于每两张固定帧之间的若干视频帧以及位于三张固定帧之后的若干视频帧分别组成迭代帧差集，即组成四个迭代帧差集，针对每个迭代帧差集，将迭代帧差集中的每两张相邻的视频帧做帧差操作，首次进行帧差操作时，当第一视频帧和第二视频帧之间的帧差大于预设初始帧差阈值时，保留第一视频帧的序列，当第一视频帧和第二视频帧之间的帧差小于等于预设初始帧差阈值时，舍弃第一视频帧的序列，然后继续自第二视频帧开始和自身的下一视频帧做与第一视频帧和第二视频帧的相同的帧差操作，每次循环帧差操作时均将上一次做帧差操作时的帧差阈值减小预设差值后作为当次的帧差阈值；直至最终保留序列的视频帧的帧数大于预设帧数时停止迭代帧差并输出保留的视频帧的序列；

在做下一个迭代帧差集的帧差操作时，将前一个迭代帧差集的最后一个帧差阈值减小预设差值后作为后一个迭代帧差集的第一个帧差阈值。

3.根据权利要求1所述的一种基于FD‑SPNet网络的视频关键帧提取方法，其特征在于：

所述的步骤2.3)中，采用滑动帧差法依次将动作视频中除了步骤2.1)中的三张固定帧的其它视频帧以固定帧为基础进行帧差操作，具体为将动作视频中位于三张固定帧之前的若干视频帧、位于每两张固定帧之间的若干视频帧以及位于三张固定帧之后的若干视频帧分别组成滑动帧差集，即组成四个滑动帧差集，针对每张固定帧及固定帧前后的两个滑动帧差集，首先将固定帧前的一个滑动帧差集中的每张视频帧依次和固定帧做帧差操作，首次进行帧差操作时，当固定帧前的一个滑动帧差集中的第一视频帧和固定帧之间的帧差大于预设初始帧差阈值时，保留固定帧前的一个滑动帧差集中的第一视频帧的序列，当固定帧前的一个滑动帧差集中的第一视频帧和固定帧之间的帧差小于等于预设初始帧差阈值时，舍弃固定帧前的一个滑动帧差集中的第一视频帧的序列，然后继续自固定帧前的一个滑动帧差集中的第二视频帧开始和固定帧做与第一视频帧和固定帧的相同的帧差操作，每次循环帧差操作时均将上一次做帧差操作时的帧差阈值减小预设差值后作为当次的帧差阈值；将固定帧和固定帧后的一个滑动帧差集中的每张视频帧做帧差操作，针对固定帧后的一个滑动帧差集中的每张视频帧，当视频帧和固定帧之间的帧差大于当前的帧差阈值时，保留视频帧的序列，当视频帧和固定帧之间的帧差小于等于当前的帧差阈值时，舍弃视频帧的序列，每次循环帧差操作时均将上一次做帧差操作时的帧差阈值减小预设差值后作为当次的帧差阈值；直至最终保留序列的视频帧的帧数大于预设帧数时停止滑动帧差并输出保留的视频帧的序列；

在做下一个滑动帧差集的帧差操作时，将前一个滑动帧差集的最后一个帧差阈值减小预设差值后作为后一个滑动帧差集的第一个帧差阈值。

4.根据权利要求1所述的一种基于FD‑SPNet网络的视频关键帧提取方法，其特征在于：

所述的深度学习帧选取模型SPNet包括12个3×3卷积层、通道注意力模块和特征融合模块MSCA，将深度学习帧选取模型SPNet的输入自第一个3×3卷积层输入后分别输入至通道注意力模块和第二个3×3卷积层中处理，通道注意力模块的输出和第二个3×3卷积层的输出共同输入至特征融合模块MSCA中处理，将第一个3×3卷积层的输出和特征融合模块MSCA的输出进行Multiply相乘后获得相乘结果，将第二个3×3卷积层的输出依次输入至第三至十一个3×3卷积层中处理，第十一个3×3卷积层的输出和相乘结果共同输入至第十二个3×3卷积层中处理后输出作为深度学习帧选取模型SPNet的输出。

5.根据权利要求4所述的一种基于FD‑SPNet网络的视频关键帧提取方法，其特征在于：

所述的通道注意力模块包括依次连接的全局平均池化层GAP、深度可分离卷积层PWC和全连接层Dense。

6.根据权利要求1所述的一种基于FD‑SPNet网络的视频关键帧提取方法，其特征在于：

所述的步骤3)中，将各个待提取的视频关键帧的特征信息输入Fast‑NMS网络中，Fast‑NMS网络输出待测动作视频中若干最终的视频关键帧，具体为将各个待提取的视频关键帧的特征信息输入Fast‑NMS网络中提取点和描述符获得各个待提取的视频关键帧的矩阵信息，每两相邻视频关键帧之间的矩阵信息进行距离计算，当计算获得的距离大于描述符匹配阈值时，提取两相邻视频关键帧中的前一帧，当计算获得的距离小于等于描述符匹配阈值时，则不提取视频关键帧，最终输出若干提取的视频关键帧作为最终的视频关键帧。