1.一种基于语义注意力机制的零样本语义分割方法,其特征在于,包括以下步骤:
步骤一:构建零样本语义分割数据集;
步骤二:将步骤一数据集的训练图片输入到背景提取模块,输出训练图片背景区域的掩码图;
步骤三:使用步骤二得到的掩码图掩盖训练图片的前景部分,得到训练图片的背景区域;
步骤四:利用训练图片的背景标注,计算训练图片背景的语意分割损失;
步骤五:将步骤三得到的背景区域输入到背景特征更新模块,同时将初始背景特征输入到背景模块中;背景特征更新模块输出适用于当前图片语义分割的背景特征;
步骤六:将训练图片输入到像素特征提取模块中,像素特征提取模块输出两个图,一个是图片的像素级视觉特征的特征图,另一个是语义注意力图;
步骤七:将步骤六中得到的语义注意力图作用在语义特征上得到针对每个像素点进行语义分割的语义特征向量;
步骤八:计算步骤七中得到的针对每个像素点的语义特征向量和步骤五中得到的背景特征与步骤六中输出的特征图的每个像素点的相似度,作为每个像素点的分类置信度,通过损失函数计算整图的语义分割损失;
步骤九:根据步骤四和步骤八计算的背景和整图的语义分割损失计算总损失,用总损失训练背景提取模块、背景特征更新模块和像素特征提取模块;
步骤十:测试的时候,先利用步骤三中的背景提取模块提取测试图片的背景区域掩码,然后利用掩码得到测试图片的背景区域,将背景区域和初始背景特征输入到步骤五中的背景特征更新模块中得到当前测试图片的背景特征;与此同时,将测试图片输入到步骤六中的像素特征提取模型,利用像素特征提取模型输出的语义注意力图得到测试语义特征;最后采用步骤八的方法计算每个像素点的分类置信度,取最大值作为每个像素点的分类结果。
2.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤一中,采用VisualObject Classes Challenge 2012(VOC2012)数据集,训练图片有8256张,测试图片有1449张,可见类有15类,未见类有5类。
3.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤二中,背景提取模块采用MaskFormer模型,该模型主要用于有监督的语义分割任务,输入图片后可以输出图片的背景区域。
4.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤四中的训练图片背景的语义分割损失是通过二元交叉熵损失函数计算得到。
5.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤五中的初始背景特征是“background”这个单词的词向量特征。
6.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤五中的背景特征更新模块由2层3×3卷积层和ReLU激活层组成,最后通过全局平局池化得到背景特征,然后拼接初始背景特征后,经过1层全连接层和ReLU激活层后得到步骤五中的适用于当前图片语义分割的背景特征。
7.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤六中的像素特征提取模块采用的骨架模型是deeplabv3模型。
8.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤六中通过deeplabv3输出的像素特征图,将像素特征图与可见类的语义特征相乘后得到相似度图,然后将相似度图输入到3层的3×3卷积层和ReLU层后输出一个语义注意力图。
9.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤七中将语义注意力图作用在语义特征上的具体操作为,先在每个像素点上复制对可见类数目的语义特征得到语义特征图,然后将步骤六中得到的语义注意力图和复制得到的语义特征图相乘得到利用语义注意力之后的语义注意力语义特征图。
10.根据权利要求1所述的一种基于语义注意力机制的零样本语义分割方法,其特征在于,所述步骤八中通过余弦相似度计算特征向量和语义特征向量的相似度,所述步骤八中的语义分割损失通过二元交叉熵损失函数计算得到。