利索能及
我要发布
收藏
专利号: 2017114224478
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:包括如下步骤:一、输入视频图像序列,并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征;

二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域,通过多尺度的卷积特征对所述建议区域进行级联分类和回归,并得到每帧图像的静态图片检测结果;

三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值,在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域,并对所述时序建议区域进行级联分类和回归,得到时序检测结果;

四、将所述静态图片检测结果和所述时序检测结果通过共生矩阵对检测结果中异常值进行抑制,从而得到最终检测结果。

2.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤二中具体包括如下步骤:所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量,再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归,输出ancher是否为object区域的分类结果和边界框的参数,并将得到的分类结果按置信度排序,选择置信度靠前的框作为建议区域;

在级联分类和回归网络中对所述建议区域进行分类和对边界框的参数进行调整,根据所述建议区域的像素值选择不同层的卷积特征,并在此过程中得到每帧图像的静态图片检测结果。

3.根据权利要求2所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤二中,当所述建议区域在原图中大于56个相像素值时,选择所述CNN特征中的conv5-3卷积特征;当所述建议区域在原图中小于56个像素值时,选择所述CNN特征中的conv 4-3卷积特征。

4.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤三中,从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征x,其尺寸为w×h×d;其中,w、h分别表示区域的高度和宽度,d表示通道的数量;

所述相关滤波的搜索视野是整个裁剪出多通道特征x,并且对于每个位置,都有一个相应的高斯分布函数:其中,高斯核宽度σ大小设置为0.1,其中,i,j均为正整数,表示x中的坐标。

5.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特*征在于:高斯核r通过求解最小化问题得到:

其中 λ是正则化参数,且λ=10-4;

通过每个通道的快速傅里叶变换求解所述高斯核,并且在频域中的第k个通道的相关滤波器表示为:其中,Y是y的傅里叶变化, 是x的傅里叶变换的复共轭, 表示对应元素相乘。

6.根据权利要求5所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤三中,对目标位移的估计转化为对于响应图上最大值的搜索,如果给定下一帧的卷积特征的一部分特征z,设定特征z的大小为W×H×D;其中,W、H分别表示区域的高度和宽度,D表示通道的数量,则响应图通过傅里叶逆变换得到:k

其中,R为在频域中的第k个通道的相关滤波器,k为正整数, 是z的傅里叶变换的复共轭。

7.根据权利要求5或6所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:相关滤波器Rk通过如下方式更新:其中A0和B0是从置信度靠前的时序检测结果中学到的每一类的初始参数,μ是时序更新率,且μ=0.01。

8.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:在步骤四中,所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果;

将置信度大于0.6且在整个视频中分布最为广泛的初始检测结果作为视频的显著类别,并将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。

9.根据权利要求8所述的一种基于级联回归卷积神经网络的视频目标检测方法,其特征在于:步骤四具体包括如下步骤:通过共生矩阵,对所述初步检测结果中的异常值进行抑制,如果目标类别与显著类别冲突,则将所述目标类别的检测置信度减半;

在进行异常值抑制后,对所述初步检测结果进行非极大值抑制,得到最终检测结果。