利索能及
我要发布
收藏
专利号: 2020100308018
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:包括以下步骤:步骤1场景显著性区域提取;

步骤2语义分割模型融合;

步骤3融合语义信息的关键区域检测;

步骤4无监督学习结合位置线索的二值化特征提取。

2.根据权利要求1所述的一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:该方法包括以下步骤,场景显著性区域提取的实施过程如下,首先对视频帧进行预处理,将边缘模糊、扭曲的区域去除;然后使用滑动窗口对视频帧行采样,计算图像中每个像素的显著性分数Sp(x,y,ft),保留高于阈值的像素作为初步的关键区域;

当滑动窗口位于(x,y)位置时,分别计算当前帧所包含的图像块R(x,y,ft)与其他视频帧相同位置以及其十字邻域内,共五个位置图像块R(x±1,y±1,ft')之间的差别,求和即得到当前帧该位置(x,y)的显著性分数;其中,x,y分别代表像素点在图像坐标系中的横纵坐标值;D(·)表示计算图像块之间差别的函数;ft代表需要计算显著性分数的当前帧,N为当前帧时域邻域内所包含视频帧的个数;Sp(x,y,ft)是得到的像素显著性分数。

3.根据权利要求1所述的一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:语义分割模型融合的实施过程如下,利用多种在Cityscapes数据集上训练的语义分割网络模型对视频帧进行分割;按照特异性和稳定性的原则,在分割时,只保留六类场景:建筑物、墙、电线杆、围栏、信号灯、标志牌;对不同模型分割后的结果,再通过加权融合的方式生成分割精度高的二值化掩模。

4.根据权利要求1所述的一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:融合语义信息的关键区域检测的实施过程如下,在步骤1和步骤2基础上,将利用像素显著性分数初步提取到的特征区域与融合后语义分割模型生成的二值化掩模取交集,得到最终精细化后的关键区域。

5.根据权利要求1所述的一种融合语义信息的无监督学习场景特征快速提取方法,其特征在于:无监督学习结合位置线索的二值化特征提取的实施过程如下,首先,基于关键区域检测结果,利用枚举法获得像素对集合;

其次,利用时间域和空间域中像素对包含的亮度信息,计算像素对的显著性分数S(P,Fq);

其中S(P,Fq)是当前帧内Fq某点对P的显著性分数,D(P,Fq)是当前查询帧Fq内点对P的两个像素之间的灰度差,D(P,Fq)是第i个相邻帧内点对P的两个像素之间的灰度差;M是相邻帧的数量;

然后引入像素点位置线索,保留包含丰富结构信息的像素对集合;提取到的像素对集合中存在两种类型的像素对:一种是两个像素来自同一个特征子区域;另一种是两个像素来自不同的特征子区域;二值化的结果分别保留图像中的局部细节信息和全局结构信息;

最后,基于初步筛选后的结果,计算每个像素对的分布向量以建立K-means++聚类算法的训练矩阵;分布向量P1表示了像素对集合中的第一个像素对所包含的两个像素的灰度差在视频帧fi,i∈[t-m,t+m]中的分布,Δ代表像素对P1在当前帧ft中对应位置的像素灰度值之差;其中t代表当前帧位置,m+1代表分布向量的长度,I(·)表示像素的灰度值,像素对P1由像素点pi和pj构成,两个像素点在图像坐标系中的对应坐标分别为(xi,yi)和(xj,yj);

Δ=ΔP=I(xi,yi,ft)-I(xj,yj,ft)进行多次迭代训练得到聚类中心;根据聚类中心提取与其距离最近的分布向量所代表的像素对作为视频帧的特征提取模式。