利索能及
我要发布
收藏
专利号: 2018115531232
申请人: 安徽大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.实时无跟踪的监控视频遗留物检测方法,其特征在于,采用计算机并按如下步骤进行:步骤1:向计算机输入视频;

步骤2:由计算机读取视频的当前帧;

步骤3:进行基于时域统计的静止目标初检测,得到静止目标区域;

步骤4:对由步骤3获得的静止目标区域进行基于双特征的可疑目标检测,排除其中的伪静止目标区域,获得经过预判断的帧图;

步骤5:对由步骤4获得的经过预判断的帧图,进行基于CNN网络的遗留物确认,得到判断结果输出,随后读取步骤2所述视频的下一帧的图像,并返回步骤3,直至由步骤1输入的视频全部被处理完。

2.根据权利要求1所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,在步骤

3中,在帧差法的基础上,通过统计前景区域在连续帧序列变化情况,从而得到初始的静止目标区域。

3.根据权利要求1所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,在步骤

4中,梯度方向直方向图和色调-饱和度-明度两种手工设计特征相结合来进行可疑物预判断,排除光照变化等影响带来伪静止目标区域。

4.根据权利要求1所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,步骤5是结合深度学习技术排除已知物体和行人,从而对可疑物进行最终确认,实现一种无跟踪的遗留物检测。

5.根据权利要求1至4任一所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,步骤3的具体步骤为:静止前景目标检测/静止目标初检测包括两部分:即前景提取和轮廓位置统计;

本发明对前景提取采用的是固定背景帧的帧差法,在得到前景区域后,我们对该区域计算其停留时间以确认是否是静止目标,方法是:根据前后帧中前景区域的位置变化情况统计,如果达到给定的时间阈值T,则将该区域判定为静止前景目标区域;

如果用Pt表示当前时刻轮廓的位置信息,也就是框住了前景区域的矩形框在每帧图像上的位置;Pt由左上顶点坐标(x,y)和宽(w)高(h)组成,即Pt=[xt,yt,wt,ht],Pt-1=[xt-1,yt-1,wt-1,ht-1],Pt-1表示前一帧矩形框的位置,两个位置相减,等于0表示是同一位置,则该前景区域停留时间加1;t代表当前时刻,则这一静止目标的检测过程可以表示为.其中:T表示静止目标达到的时间阈值;δ(x)函数是用于统计前后变化次数的冲激函数:满足公式3-1即表示该前景区域为静止目标区域。

6.根据权利要求1至4任一所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,步骤4的具体步骤为:用HOG特征来过滤光照强度不高的时候产生的前景区域:提取当前帧和背景帧中这一区域的HOG特征,分别记作Hf和Hb;再作直方图比较,结果记为d(Hf,Hb):其中:

N是直方图bin的数目;

通过HSV颜色模型进一步过滤光照较强时产生的区域;

HSV颜色模型中的V通道是亮度,对光照敏感,H是明度,S是饱和度;若待检测区域是光斑,则和背景是不相似的,会误检成遗留物,通过统计H通道和S通道以及V通道的直方图,并作直方图比较,这样我们可以通过设定阈值(详见下文的论述),来判断当前区域是否为可疑的目标区域;

首先判断是否为HSV格式的图片;若为RGB格式的图片,则需要转为HSV图,若为HSV格式的图片,则直接到下一步:对当前帧和背景帧中的静止目标区域提取HSV直方图特征,记为Lf和Lb,再对这两个直方图作比较,其结果记为d(Lf,Lb);

若d(Hf,Hb)和d(Lf,Lb)同时满足给定的阈值Th和Tl,可以表示为:即m=1时,该静止目标区域可以确认为可疑目标区域;否则是和背景相似的区域,不作进一步检测。

7.根据权利要求1至4任一所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,步骤5的具体步骤为:在步骤4的基础上,通过深度学习进一步对可疑物体进行判断,以排除已知物体或者行人;为此,我们训练网络的数据来源是场景中本来就有但也可以移动的物体以及行人,可以避免背景中已有物体被拿走时出现误检以及场景中已有的人在静目时为当成可遗留物;具体步骤如下:CNN的结构由输入层、卷积层、激活函数、池化层、全连接层以及输出层组成,所有的CNN网络都是基于这几层去搭建的;网络的输入层可以是单维或多维的,每一层输入通过卷积核的卷积后通过激活函数得到特征图,同一个特征图是由相同的权重卷积得到;每层卷积核的个数决定了该层的特征图个数;池化层利用图像局部相关性原理,对图片进行缩小,可以在减少数据的处理量的同时保留有用的信息;所以对前一层的特征图进行池化操作,得到的特征图个数不变,但尺寸变小了;CNN的最大特点就是局部感知和参数共享,相比传统的神经网络大大减少了参数个数;在解决实际问题时,我们可以在这基础上叠加多个卷积层、池化层形成自己的网络。

8.根据权利要求6所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,步骤5采用的是VGG-16网络,其网络结构由13层隐藏层和3层全连接层组成;输入的数据维度需是

224*224*3;

第一次卷积时是用64个3*3*3的卷积核,卷积两次,得到64个与原始数据同样大小的特征图,即224*224*64。

紧跟是池化层,用2*2的池化核将前面得到的特征图缩小了一半,即112*112*64;

第二次卷积是128个3*3*64的卷积核,卷积两次,得到128个缩小后的特征图,即112*

112*128;

再接着是池化层,又将上述的特征图缩小了一半,即56*56*128;

第三次卷积是256个3*3*128的卷积核,卷积了3次,得到的特征图大小和个数是56*56*

256;然后又是池化层,将特征图再缩小一半,即28*28*256;

第四次卷积是512个3*3*256卷积核,卷积3次,得到的特征图是28*28*512;

再经过池化层后,又卷积一次,这次卷积核个数没有增加,还是512个3*3*512,故特征图大小是14*14*512;

接着再池化一次,得到7*7*512的特征图;

最后到全连接层时,采用N个7*7*512的卷积核,对上述得到的特征图进行卷积,这里N是网络训练的类别数,本发明是6类;经过三次全连接后,输出一维向量1*1*N;其中所有的卷积层和最后的全连接层都有一个激活函数ReLU,主要是为网络添加非线性因素,提升网络模型的表达能力;在最后一层全连接层得到1*1*N的向量后,需要对这个1*1*N的向量作分类,而一般是采用Softmax分类器,输出的也是1*1*N的向量,其中的每个值表示当前的输入数据属于每个类的概率;基于该网络,首先我们先对场景中的已有物体进行训练,如果输入图像不是之前训练过的,则输出的类别概率较低,则判断为遗留物;这里输入的图像是通过前面得到的静止目标区域,经过该网络的测试输出其类别及相应概率。

9.根据权利要求1或2所述的实时无跟踪的监控视频遗留物检测方法,其特征在于,采用本发明方法检测结果是较准确和及时的;对遗留物的检测不仅具有准确性,还具备实时的性能;本发明方法在ABODA数据集和i-LIDS数据集上与现有在实时性能上作了对比,实时的前提就是在处理单帧的时候耗时要少。