利索能及
我要发布
收藏
专利号: 2024113143384
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种关键帧提取方法,其特征在于,包括:

获取待处理视频的帧图像;

对获取到的帧图像逐帧进行局部特征提取和深度特征提取,得到每一帧图像的局部特征和深度特征;

其中,所述对获取到的帧图像逐帧进行局部特征提取和深度特征提取,得到每一帧图像的局部特征和深度特征,包括:利用尺度不变特征变换和词袋模型对获取到的帧图像逐帧进行局部特征提取,得到每一帧图像的局部特征;

所述利用尺度不变特征变换和词袋模型对获取到的帧图像逐帧进行局部特征提取,得到每一帧图像的局部特征,包括:利用尺度不变特征变换算法对获取到的帧图像逐帧进行帧图像的关键点检测,得到每一帧图像的关键点及关键点的描述子;

利用K均值算法将每一帧图像的关键点进行聚类,得到每一帧图像关键点的索引图;

在所述索引图中检索与每一帧图像的关键点的描述子距离最近的聚类中心,得到每一帧图像的关键点的描述子对应的视觉词汇;

基于每一帧图像所有关键点的描述子对应的视觉词汇,组成每一帧图像的词袋向量;

基于每一帧图像的词袋向量中各种视觉词汇的频率,得到每一帧图像的特征向量,作为每一帧图像的局部特征;

利用预先训练的深度学习模型的编码器对获取到的帧图像逐帧进行深度特征提取,得到每一帧图像的深度特征;

所述深度学习模型包括编码器和解码器;

所述编码器包括D个卷积块,每个卷积块包括两个卷积子模块,第一个卷积子模块包括一个膨胀卷积滤波器、一个ReLU激活函数层和一个批归一化层,第二个卷积子模块包括一个膨胀卷积滤波器、一个ReLU激活函数层、一个平均池化层和一个批归一化层;

所述解码器包括N个反卷积块,每个反卷积块包括两个反卷积子模块,第一个反卷积子模块包括一个双线性插值层、一个卷积滤波器、一个ReLU激活函数层和一个批归一化层,第二个反卷积子模块包括一个转置卷积层、一个ReLU激活函数层和一个批归一化层;

所述深度学习模型,通过以下方法训练:

获取训练集中的图像;

在训练集中的图像上加入标准差为 的高斯噪声,得到含有噪声的图像;

将含有噪声的图像输入预先构建的深度学习模型,利用预先构建的深度学习模型的编码器学习输入图像的深度特征,得到训练图像的深度特征;

将训练图像的深度特征输入预先构建的深度学习模型的解码器进行图像重建,得到含有噪声的重建图像;

计算不含有噪声的训练集中的图像与含有噪声的重建图像的损失函数;

判断所述损失函数是否满足预设损失值;若不满足,调整预先构建的深度学习模型中编码器与解码器的权值和偏置后输出含有噪声的重建图像,计算损失函数;若满足,输出预先构建的深度学习模型中编码器与解码器的最优权值和偏置,得到训练好的深度学习模型;

计算每一帧图像与相邻帧图像的局部特征余弦相似度和深度特征余弦相似度,将计算得到的局部特征余弦相似度和深度特征余弦相似度加权融合,得到每一帧图像与其相邻帧图像的总相似度;

响应于某一帧图像与其相邻帧图像的总相似度为由待处理视频中所有帧图像与其相邻帧图像的总相似度构成的序列的局部极小值、且总相似度小于预设的自适应阈值,提取这一帧作为待处理视频的关键帧。

2.根据权利要求1所述的关键帧提取方法,其特征在于,所述损失函数为均方误差损失函数,通过下式计算:,

其中,LMSE为均方误差损失函数,M为训练集中图像的数量,Xi为不含有噪声的第i个训练集中的图像,Yi为含有噪声的第i个训练集中的图像。

3.根据权利要求1所述的关键帧提取方法,其特征在于,所述将计算得到的局部特征余弦相似度和深度特征余弦相似度加权融合,得到每一帧图像与其相邻帧图像的总相似度,通过下式计算:,

其中,STotal为每一帧图像与相邻帧图像的总相似度,α为每一帧图像与相邻帧图像的局部特征的权重因子,SSIFT为每一帧图像与相邻帧图像的局部特征余弦相似度,β为每一帧图像与相邻帧图像的深度特征的权重因子,SDEEP为每一帧图像与相邻帧图像的深部特征余弦相似度;

其中,余弦相似度,通过下式计算:

其中,S为余弦相似度,vi为第i帧图像的特征向量, vi+1为第i+1帧图像的特征向量。

4.根据权利要求1所述的关键帧提取方法,其特征在于,所述预设的自适应阈值,通过下式计算:,

其中,为自适应阈值,n为待处理视频中帧图像的总数,fi为第i帧图像,fi+1为第i+1帧图像,STotal(fi, fi+1)为第i帧图像与相邻的第i+1帧图像的总相似度。

5.一种关键帧提取装置,其特征在于,包括:

获取模块:用于获取待处理视频的帧图像;

特征提取模块:用于对获取到的帧图像逐帧进行局部特征提取和深度特征提取,得到每一帧图像的局部特征和深度特征;

其中,所述对获取到的帧图像逐帧进行局部特征提取和深度特征提取,得到每一帧图像的局部特征和深度特征,包括:利用尺度不变特征变换和词袋模型对获取到的帧图像逐帧进行局部特征提取,得到每一帧图像的局部特征;

所述利用尺度不变特征变换和词袋模型对获取到的帧图像逐帧进行局部特征提取,得到每一帧图像的局部特征,包括:利用尺度不变特征变换算法对获取到的帧图像逐帧进行帧图像的关键点检测,得到每一帧图像的关键点及关键点的描述子;

利用K均值算法将每一帧图像的关键点进行聚类,得到每一帧图像关键点的索引图;

在所述索引图中检索与每一帧图像的关键点的描述子距离最近的聚类中心,得到每一帧图像的关键点的描述子对应的视觉词汇;

基于每一帧图像所有关键点的描述子对应的视觉词汇,组成每一帧图像的词袋向量;

基于每一帧图像的词袋向量中各种视觉词汇的频率,得到每一帧图像的特征向量,作为每一帧图像的局部特征;

利用预先训练的深度学习模型的编码器对获取到的帧图像逐帧进行深度特征提取,得到每一帧图像的深度特征;

所述深度学习模型包括编码器和解码器;

所述编码器包括D个卷积块,每个卷积块包括两个卷积子模块,第一个卷积子模块包括一个膨胀卷积滤波器、一个ReLU激活函数层和一个批归一化层,第二个卷积子模块包括一个膨胀卷积滤波器、一个ReLU激活函数层、一个平均池化层和一个批归一化层;

所述解码器包括N个反卷积块,每个反卷积块包括两个反卷积子模块,第一个反卷积子模块包括一个双线性插值层、一个卷积滤波器、一个ReLU激活函数层和一个批归一化层,第二个反卷积子模块包括一个转置卷积层、一个ReLU激活函数层和一个批归一化层;

所述深度学习模型,通过以下方法训练:

获取训练集中的图像;

在训练集中的图像上加入标准差为 的高斯噪声,得到含有噪声的图像;

将含有噪声的图像输入预先构建的深度学习模型,利用预先构建的深度学习模型的编码器学习输入图像的深度特征,得到训练图像的深度特征;

将训练图像的深度特征输入预先构建的深度学习模型的解码器进行图像重建,得到含有噪声的重建图像;

计算不含有噪声的训练集中的图像与含有噪声的重建图像的损失函数;

判断所述损失函数是否满足预设损失值;若不满足,调整预先构建的深度学习模型中编码器与解码器的权值和偏置后输出含有噪声的重建图像,计算损失函数;若满足,输出预先构建的深度学习模型中编码器与解码器的最优权值和偏置,得到训练好的深度学习模型;

计算模块:用于计算每一帧图像与相邻帧图像的局部特征余弦相似度和深度特征余弦相似度,将计算得到的局部特征余弦相似度和深度特征余弦相似度加权融合,得到每一帧图像与其相邻帧图像的总相似度;

提取模块:用于响应于某一帧图像与其相邻帧图像的总相似度为由待处理视频中所有帧图像与其相邻帧图像的总相似度构成的序列的局部极小值、且总相似度小于预设的自适应阈值,提取这一帧作为待处理视频的关键帧。

6.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时,实现权利要求1‑4中任一所述的关键帧提取方法的步骤。