利索能及
我要发布
收藏
专利号: 2019110874724
申请人: 安徽大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于自引导推理的弱监督图像语义分割方法,其特征在于,通过计算机对图像做如下处理:

首先,去除深度卷积神经网络的全连接层,只保留卷积层、批量归一化、激活函数和池化层后,称为深度卷积神经网络主干部分;接着,图像基于深度卷积神经网络主干部分生成原始特征图,然后利用卷积层卷积操作并降维后得到类特征图,使用空间池化层对每个类特征图分类,并且在类特征图上根据其特征值是否大于设定阈值定位出图像的判别区域和非判别区域,其中,图像中被定位的对象区域为判别区域,没有定位出但属于对象的区域则为非判别区域,此过程的类特征图命名为初始定位图;基于判别区域对原始特征图中每个特征值乘以对应数值以突出非判别区域在原始特征图上映射的区域,然后执行上述分类操作定位出对象的非辨别区域,此过程的类特征图命名为补位定位图,把基于判别区域操作原始特征图的功能封装成一个网络层,称为自引导推理层;

随后,为了训练语义分割,先利用卷积层把原始特征图的维度降维到原来的四分之一后,接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作,再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图;通过把上述操作封装成一个模块,即自引导推理模块;然后对新的特征图基于卷积层卷积操作并降维生成分割预测图,在基于初始定位图和补位定位图融合并合成分割标签的监督下,指导语义分割训练;

最后,把自引导推理层和自引导推理模块嵌入在深度卷积神经网络主干部分的后面,构建为自引导推理网络;该自引导推理网络在训练阶段能同时优化对象定位和语义分割任务;在使用阶段,深度卷积神经网络主干部分基于自引导推理模块和卷积层获得分割预测图,经CRF优化获得语义分割图,并输出结果。

2.根据权利要求1所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,通过计算机并按如下步骤进行:步骤1,图像特征提取与初始定位图生成:

网络训练阶段,先把数据集里的图像每16张作为一组,即一个批次,向计算机分批次输入,利用深度卷积神经网络主干部分生成该组图像的原始特征图,然后在深度卷积神经网络主干部分后引出三个分支处理前述图像的原始特征图:第一个分支特征图像处理、第二个分支特征图像处理、第三个分支特征图像处理;即三个分支分别对原始特征图操作;

首先进行第一个分支特征图像处理:对原始特征图利用卷积层卷积操作并降维后得到类特征图,用空间池化层取每个类特征图中部分特征元素用于分类;基于图像分类操作:针对类特征图中特征元素的特征值大小不一,设定阈值,特征值大于该阈值的区域认定为对象部分,该类特征图命名为初始定位图;随后进入步骤2;

步骤2,自引导推理层与补位定位图生成,即进行第二个分支特征图像处理:人为设定高阈值和低阈值,并据此对步骤1中的初始定位图根据设定的高阈值和低阈值在空间维度上划分为三个区域;其中,高阈值的取值范围在0.5至0.9;低阈值的取值范围在0.05至0.2;

基于引导基数对前述三个区域乘以不同的值,生成引导推理图;引导推理图与原始特征图对应元素相乘获得新的特征图,同步骤1分类过程操作相同,此处把该过程中的类特征图命名为补位定位图;本发明把引导推理图的生成和与原始特征图的相乘操作封装成一个网络层,即自引导推理层;

步骤3,自引导推理模块与分割预测图生成,即进行第三个分支特征图像处理:通过利用卷积层把步骤1的原始特征图的维度降维到原来的四分之一后,接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作,再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图;这里新的特征图是指自引导推理模块生成的,原始特征图的维度,指原始特征图的个数;本步骤中,把上述操作封装成一个模块,即自引导推理模块;对前述新的特征图利用卷积层卷积操作并降维后得到分割预测图;

步骤4,合成分割标签与训练:对步骤1中的初始定位图和步骤2中的补位定位图对应元素相加获得定位图,接着对定位图归一化操作后,人工设定前景阈值和背景阈值,并根据设定的前景阈值和背景阈值把定位图在空间维度上分为三个区域,每个区域取不同的值,从而合成分割标签;前景阈值的取值范围在0.2至0.5之间,背景阈值的取值范围在0.01至

0.05之间;训练阶段,基于图像级标签学习第一分支和第二分支,分别生成初始定位图和补位定位图,然后利用初始定位图和补位定位图相加获得定位图后合成分割标签,指导第三分支的学习;

步骤5,生成语义分割图:使用时,第三分支输出分割预测图,经现条件随机场/CRF优化后获得语义分割图,并输出。

3.根据权利要求1或2所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,步骤如下:步骤1,图像特征提取与初始定位图生成:图像特征提取,即输入一组图像利用现有深度卷积神经网络Resnet101去除全连接层后的部分作为主干部分生成原始特征图,在其后引入三个分支:第一分支、第二分支、第三分支,其中,第一分支、第二分支作为定位分支,第三分支作为语义分割分支;对于原始特征图,利用第一分支将其降维到与类别相同的维数,即类特征图,然后对每个类特征图聚合成一个数值,基于图像分类完成对象定位,生成初始定位图;

步骤2,自引导推理层与补位定位图生成:在第二分支中,自引导推理层先对步骤1中的初始定位图归一化并合并为单通道后,令高阈值取0.5,低阈值取0.05,根据高阈值和低阈值在空间维度上划分三个区域,对不同的区域乘以不同的系数,据此生成引导推理图,这里特征值大于高阈值的区域则为引导区域;引导推理图和原始特征图的对应元素相乘获得新的特征图;新的特征图和第一分支分类操作相同,从而生成补位定位图;

步骤3,自引导推理模块与分割预测图生成:在第三分支中,原始特征图先经过自引导推理模块生成新的特征图,即先利用卷积层把原始特征图的维度(指原始特征图的个数)降维到原来的四分之一后,接着在用四个空洞率不同的空洞卷积层串联组成的模块中依次进行空洞卷积操作,再把每个空洞卷积层的结果拼接后和原始特征图对应元素相加输出新的特征图;对新的特征图利用卷积层卷积操作并降维后得到分割预测图;

步骤4,合成分割标签与训练:对步骤1中的初始定位图和步骤2中的补位定位图取和得到定位图;对定位图归一化后,令前景阈值取0.5,背景阈值取0.05,将定位图在空间维度上划分为三个区域:定位图中特征值大于前景阈值的高评分区域、处于两个阈值之间的中评分区域、小于背景阈值的低评分区域,然后依次赋值为1,255,0,据此得到语义分割训练所需的 分割标签 ;训练时 ,对于第一分支和第二分支使 用图像级标 签和MultiLabelSoftMarginLoss指导分类学习,分别生成初始定位图和补位定位图,然后利用初始定位图和补位定位图相加获得定位图,并根据定位图合成分割标签,最后把第三分支生成的分割预测图和分割标签求二元交叉熵损失,从而指导第三分支的学习;

步骤5,生成语义分割图:使用时,利用第三分支生成分割预测图,最后经过CRF优化后,输出语义分割图。

4.根据权利要求3所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,步骤1的实现过程具体如下:步骤1.1,图像特征提取:采用深度卷积神经网络Resnet101去除全连接层后的部分提取一组图像的特征,生成原始特征图,该原始特征图的通道具有2048维;然后引出三个分支作为后续任务使用,其中第一分支和第二分支用于定位图的生成,第三分支用于语义分割图的生成;

步骤1.2,初始定位图生成:利用步骤1.1得到的原始特征图,经过第一分支利用卷积层卷积操作将其降维到与类别相同的维数后得到类特征图,基于图像级标签监督,对类特征图中的信息进行聚合,然后基于图像分类完成对象定位,此处类特征图命名为初始定位图;

图像分类采用空间池化层汇集提供弱监督训练所需的全局图像预测的特征,对每个类特征图都采用以下操作:这里Fc是类特征图,k满足ki,j∈{0,1}并且∑i,jki,j=n+(n-),这里i,j是指类特征图中第i行第j列,c是指类别为c的对象,n是指在类特征图上选择的区域总数;公式(3-1)意味着为每个类c从输入Fc选择n+个高评分区域和n-个低评分区域,然后计算选择区域的分数,最后用权重λ对其求和输出类c的预测分数Sc;λ是自由参数,值为0.7,为了调节两个区域分数的比重,从而突出它们的相对重要性;

经过对步骤1.1中原始特征图生成,以及步骤1.2中对原始特征图利用卷积层卷积操作降维后得到类特征图,然后使用空间池化层聚合分类获得初始定位图。

5.根据权利要求3所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,步骤2具体如下:步骤2.1,自引导推理层:在自引导推理层中,根据步骤1.2得到的初始定位图MA,归一化后利用高阈值δh=0.5和低阈值δl=0.05生成引导推理图TA,δh>δl;MA中值大于等于δh的空间区域视为前景区域,值小于等于δl的空间区域视为背景区域,值在δh和δl之间的空间区域视为扩展区域;

首先利用MA的值计算引导推理图TA使用的引导基数WA,以便三个区域使用;对于WA,(i,j的值,用β(1-MA,(i,j))和MA,(i,j)比较,取最大值即max(MA,(i,j),β(1-MA,(i,j))),然后再乘以最大值和1之间的差,WA定义为:WA,(i,j)=max(MA,(i,j),β(1-MA,(i,j)))×[1-max(MA,(i,j),β(1-MA,(i,j)))]  (3-2)这里β是自由参数,起调节作用,i,j是指初始定位图中第i行第j列;

对于引导推理图TA中TA,(i,j)的值,根据MA,(i,j)的值进行赋值:

如果MA,(i,j)大于或等于δh,取WA,(i,j)乘以一个参数α;

如果MA,(i,j)小于或等于δl,取WA,(i,j)乘以一个参数η;

如果MA,(i,j)在δh和δl之间,取WA,(i,j)乘以一个参数χ;

引导推理图TA定义为:

其中α、χ和η都是自由参数,起调节作用,这里χ是η的两倍,其中η是α的两倍,i,j是指引导推理图和引导基数中第i行第j列;

对于步骤1中的原始特征图,利用引导推理图与之相乘作为自引导推理层的输出,这里原始特征图记为FA,输出记为FP,自引导推理层的功能表示为:FP,(i,j)=max(FA,(i,j),0)*TA,(i,j)  (3-4)

这里max()表示对原始特征图去掉负相关的特征值,i,j是指FA,FP和TA中第i行第j列;

公式表示把每个特征值和其对应的引导值相乘作为自引导推理层输出新的特征图的特征值;

步骤2.2,补位定位图生成:同步骤1中的初始定位图生成过程相同,这里对自引导推理层输出的新的特征图进行同样操作生成补位定位图;

原始特征图经过步骤2.1和步骤2.2操作生成补位定位图。

6.根据权利要求3所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,步骤3具体如下:步骤3.1,自引导推理模块:在第三分支中,对步骤1的1.1中的原始特征图先经过自引导推理模块操作,即先对2048维的原始特征图FA采用1X1卷积层卷积操作降维到512维,依次采用空洞率为2,4,6,8的空洞卷积层不降维卷积操作,得到特征图F2,F4,F6,F8,再把特征图F2,F4,F6,F8拼接成2048维,最后和原始特征图FA对应元素取和得到输出特征图FI,公式表示如下:FI=Cat(F2,F4,F6,F8)+FA (3-5)

这里Cat()是特征图拼接操作;

步骤3.2,分割预测图生成:对步骤3的3.1中的输出特征图FI进行卷积层卷积操作降维到与类别相同的维度生成分割预测图;

经过步骤3.1和步骤3.2生成了分割预测图,用于后续分割训练。

7.根据权利要求3所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,步骤4具体如下:步骤4.1,合成分割标签:对步骤1中的初始定位图和步骤2中的补位定位图做对应元素取和操作获得定位图ML,据此得到相对完整的对象定位区域;

利用定位图ML合成分割标签TS;ML归一化后根据前景阈值δf=0.5和背景δb=0.05,δf>δb,在空间维度上划分成三个区域:前景区域、中间区域和背景区域;对于分割标签TS中TS,(i,j)的值,根据ML,(i,j)的值进行赋值:如果ML,(i,j)大于或等于δf,取TS,(i,j)为1;

如果ML,(i,j)小于或等于δb,取TS,(i,j)为0;

如果ML,(i,j)在δf和δb之间,取TS,(i,j)为255;

分割标签TS定义为:

这里i,j是指分割标签和定位图中第i行第j列;对ML的每个通道都进行公式(3-6)的操作,据此生成第三分支学习所需要的分割标签;

步骤4 .2,训练:在整个自引导推理网络训练中,利用图像级标签和

MultiLabelSoftMarginLoss指导第一分支和第二分支的学习,把步骤3中的分割预测图和步骤4中的分割标签求二元交叉熵损失,从而指导第三分支的学习;三个分支同时学习,共同优化;

经过步骤4.1合成了语义分割训练所需的分割标签,步骤4.2训练后得到了可以生成良好分割效果的自引导推理网络权重。

8.根据权利要求3所述的基于自引导推理的弱监督图像语义分割方法,其特征在于,步骤5具体如下:生成语义分割图:首先使用步骤4的4.2中的自引导推理网络权重,获得第三分支生成的分割预测图,然后利用现有技术条件随机场(CRF)优化后获得语义分割图,并输出。