1.一种基于近邻锚点标签纠正的含噪声标签图像分类方法,其特征在于,包括:S1:获取带有噪声标签的图像数据集,并构建图像分类模型;
所述图像分类模型包括:特征提取器 、特征投影器 和分类器 ;所述特征提取器 用于对样本进行特征提取,所述分类器 用于对特征提取器 提取的特征进行分类,所述特征投影器 用于对特征提取器 提取的特征进行降维得到样本的低维特征;
S2:对图像分类模型进行训练,通过训练好的图像分类模型对待测试图像进行分类,所述对图像分类模型进行训练包括三个训练阶段;
S21:在第一训练阶段,对图像分类模型进行预热训练,使图像分类模型获取特征提取能力和特征分类能力;
S22:在第二训练阶段,基于小损失准则,将带有噪声标签的图像数据集划分为干净子集与噪声子集,针对干净子集和噪声子集使用监督学习与半监督学习相结合的方式训练图像分类模型;
S23:在第三训练阶段,基于近邻锚点准则,计算干净子集中各类别样本的置信度;根据各类别样本的置信度从噪声子集中选取潜在可被纠正样本;
所述步骤S23包括:
S231:将干净子集的样本 输入到图像分类模型获取样本的预测结果:
其中, 表示样本 在各类别的预测结果; 表示样本 的实际标签, 表示样本的预测标签; 表示干净子集; 表示 中的第 个干净样本;
S232:计算干净子集的全局样本置信度:
其中, 表示第 次迭代时干净子集的全局样本置信度,表示干净子集中样本的类别总数, 表示衰减系数, 表示干净子集中样本的数量; 表示最大值函数;
S233:根据干净子集的全局样本置信度计算干净子集中各类别的置信度:其中, 表示第 次迭代时干净子集中类别 的置信度;
S234:将噪声子集 中的噪声样本 输入到图像分类模型中获取噪声样本的预测标签和预测置信度;
其中, 表示噪声子集 中的第k个噪声样本的预测标签; 表示 的预测置信度;并根据噪声子集中噪声样本的预测标签和预测置信度、以及干净子集中各类别的置信度从噪声子集中筛选出潜在可被纠正样本集:其中, 表示噪声子集; 表示噪声样本 的预测标签; 表示潜在可被纠正样本集, 表示噪声子集中噪声样本 的预测置信度; 表示干净子集中类别 的置信度;
S24:根据k近邻锚点准则,从干净子集中选取潜在可被纠正样本的k个最近邻样本,并计算图像分类模型对潜在可被纠正样本和其k个最近邻样本的mixup预测一致性;并将预测一致的潜在可被纠正样本从噪声子集转移到干净子集;
所述步骤S24包括:
S241:将潜在可被纠正样本集 中的潜在可被纠正样本 输入图像分类模型,得到特征投影器 输出的低维度特征集 ,, 表示潜在可被纠正样本的数量;
S242:将干净样本子集 中的干净样本 输入图像分类模型,得到特征投影器 输出的低维度特征集 , ;
S243:将潜在可被纠正样本的低维度特征 输入KNN模块,计算潜在可被纠正样本与干净样本的 近邻样本集 ;
S244:将潜在可被纠正样本与其对应的 近邻样本进行mixup,得到mixup融合样本集, ,其中, 表示 的第 个近邻样本; 表示 的第 个mixup融合样本;表示权重因子; 表示潜在可被纠正样本;
S245:将潜在可被纠正样本的mixup融合样本分别输入图像分类模型获取mixup融合样本的预测结果;对潜在可被纠正样本的 个mixup融合样本在所有类别上的预测结果取平均得到潜在可被纠正样本的融合预测标签 与融合置信度 :S246:根据干净子集中各类别样本的置信度、潜在可被纠正样本的融合预测标签与融合置信度 ,获取可纠正样本集合 :其中, 表示在 次迭代类别 的置信度,通过步骤S233计算得到;
表示可纠正样本的数量;
S247:将可纠正样本集合 中的样本转移到干净子集;
S25:更新噪声子集和干净子集,针对干净子集和噪声子集使用监督学习与半监督学习相结合的方式训练图像分类模型,重复执行步骤S23‑S25,直至到达预设的迭代次数,得到训练好的图像分类模型。
2.根据权利要求1所述的一种基于近邻锚点标签纠正的含噪声标签图像分类方法,其特征在于,所述对图像分类模型进行预热训练包括:S211:冻结分类器 ,将带有噪声标签的图像数据集 舍去标签得到无标签数据集 ,N表示样本的数量, 表示第 个样本, 表示样本 的实际标签,根据无标签数据集 利用无监督对比学习的方式对特征提取器 和特征投影器 进行训练,损失函数为对比损失,重复训练 轮次;
S212:冻结特征提取器 和特征投影器 ,根据带有噪声标签的图像数据集对分类器 进行监督训练,损失函数使用交叉熵损失,重复训练轮次。
3.根据权利要求1所述的一种基于近邻锚点标签纠正的含噪声标签图像分类方法,其特征在于,所述利用无监督对比学习的方式对特征提取器 和特征投影器 进行训练包括:将样本 分别进行强增强和弱增强得到强增强样本 和弱增强样本 ,强增强样本与原样本 构成负样例对,弱增强样本 与原样本 构成正样例对;对比损失函数用于将特征投影器输出的正样例对的特征距离拉近,将特征投影器输出的负样例对的特征距离拉远。
4.根据权利要求1所述的一种基于近邻锚点标签纠正的含噪声标签图像分类方法,其特征在于,所述将带有噪声标签的图像数据集划分为干净子集与噪声子集包括:S221:将带有噪声标签的图像数据集的每个样本输入预热训练后的图像分类模型,计算分类器输出的预测标签与实际标签之间的散度;
S222:遍历带有噪声标签的图像数据集的每个类别,将每个类别下的样本按照其散度由小到大进行排序,并选择前 比例的样本加入到干净子集,其余样本加入到噪声子集,遍历完所有类别后,得到划分好的干净子集与噪声子集,表示有噪声标签的图像数据集的噪声率。
5.根据权利要求4所述的一种基于近邻锚点标签纠正的含噪声标签图像分类方法,其特征在于,所述计算分类器输出的预测标签与实际标签之间的散度包括:其中, 表示第 个样本的散度, 表示散度函数, 是KL散度函数; 表示分类器输出的第 个样本的预测标签, 表示第 个样本的实际标签。
6.根据权利要求1所述的一种基于近邻锚点标签纠正的含噪声标签图像分类方法,其特征在于,所述对干净子集和噪声子集使用监督学习与半监督学习相结合的方式训练图像分类模型包括:将干净子集中的干净样本输入图像分类模型获取干净样本的预测标签,根据干净样本的预测标签和实际标签构建交叉熵损失函数;
其中, 表示交叉熵损失函数, 为交叉熵损失函数, 为特征提取器,为分类器; 表示干净子集; 表示 中的第 个干净样本; 表示第 个干净样本 的实际标签; 表示第 个干净样本 的预测标签;
将干净子集中的样本与噪声子集中的样本进行混合样本生成,得到混合样本集,根据混合样本的原始标签和其预测结果构建半监督损失函数;
其中, 表示半监督损失函数, 表示混合样本集, 表示混合样本集中混合样本的数量, 为交叉熵损失函数; 表示 混合函数;
和 表示第 个混合样本 和其对应的标签 ; 表示噪声子集 中的第 个噪声样本; 表示样本 的预测标签;
对噪声子集中的噪声样本分别进行强增强和弱增强得到强增强噪声样本和弱增强噪声样本;将强增强噪声样本 与原样本 构成负样例对,弱增强样本 与原样本 构成正样例对,构建对比损失函数将特征投影器输出的正样例对的特征距离拉近,将特征投影器输出的负样例对的特征距离拉远,其中,对比损失函数包括:其中, 表示对比损失函数, 表示噪声子集 中噪声样本的数量;
表示温度系数; 表示余弦相似度函数; 为样本 的弱增强样本; 为样本 的弱增强样本; 为样本 的强增强样本; 为样本 的强增强样本;
根据交叉熵损失函数、半监督损失函数和对比损失函数构建总损失函数,通过总损失函数对图像分类模型进行监督学习与半监督学习:其中, 表示总损失函数, 和 表示可调节的权重参数。