利索能及
我要发布
收藏
专利号: 2024118271482
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于样本分级学习与纠正的含噪声标签图像分类方法,其特征在于,包括以下步骤:S1:获取具有噪声标签的图像数据集,并构建图像分类模型;

S2:对图像分类模型进行训练,通过训练好的图像分类模型对待测试图像进行分类,所述对图像分类模型进行训练包括:S21:对图像分类模型进行预热训练,使图像分类模型获取特征提取能力和特征分类能力;

S22:将图像数据集输入图像分类模型,计算每个图像样本的预测结果与实际标签之间的JS散度,将图像数据集化分为小损失干净子集与大损失噪声子集,并记录每个图像样本的预测结果;

S23:根据每个图像样本在最近 轮训练中记录的预测结果的一致性将图像数据集划分为一致性干净子集和不一致性噪声子集;

S24:根据小损失干净子集、大损失噪声子集、一致性干净子集和不一致性噪声子集利用样本分级策略将图像数据集划分为简单干净样本子集、简单噪声样本子集、困难干净样本子集和困难噪声样本子集;

所述步骤S24包括:

将一致性干净子集与小损失干净子集的交集作为简单干净样本子集;

将小损失干净子集与一致性干净子集的差集作为简单噪声样本子集;

将一致性干净子集与大损失噪声子集的交集作为困难干净样本子集;

将图像数据集中除简单干净样本子集、简单噪声样本子集、困难干净样本子集后剩余的样本作为困难噪声样本子集;

S25:若当前训练轮数大于等于 ,则基于预测一致性策略将简单噪声样本子集中的部分图像样本的标签加以纠正,并转移到简单干净样本子集;

所述基于预测一致性策略将简单噪声样本子集中的部分图像样本的标签加以纠正,并转移到简单干净样本子集包括:S251:将简单噪声样本子集 中的图像样本 分别进行强增强与弱增强得到强增强样本 和弱增强样本 ;

S252:将强增强样本 和弱增强样本 分别输入图像分类模型获得对应的预测结果 与 ;

S253:根据强增强样本 和弱增强样本 的预测结果的一致性判断样本 是否为可纠正样本,当且仅当满足如下条件时,样本 为可纠正样本,用标签 纠正样本的标签,并将样本 转移到简单干净样本子集,条件如下:条件1: 且 ,其中, 函数为获取预测结果中

最大概率类别的置信度, 表示简单样本纠正的置信度阈值;

条件2: , 表示 函数;

条件3: , 表示图像样本 在最近 轮训练中记录的预测标签的一致性,一致时 ,不一致时 ;

S26:若当前训练轮数大于等于 ,则基于预测一致性策略将困难噪声样本子集中的部分图像样本的标签加以纠正,并转移到困难干净样本子集;

所述基于预测一致性策略将困难噪声样本子集中的部分图像样本的标签加以纠正,并转移到困难干净样本子集包括:S261:将困难噪声样本子集 中的图像样本 分别进行强增强与弱增强得到强增强样本 和弱增强样本 ;

S262:将强增强样本 和弱增强样本 分别输入图像分类模型获得对应的预测结果 与 ;

S263:根据强增强样本 和弱增强样本 的预测结果的一致性判断样本 是否为可纠正样本,当且仅当满足如下条件时,样本 为可纠正样本,用标签 纠正样本的标签,并将样本 转移到困难干净样本子集,条件如下:条件1: 且 ,其中, 函数为获取预测结果中

最大概率类别的置信度, 表示困难纠正样本的置信度阈值;

条件2: , 表示 函数;

条件3: , 表示图像样本 在最近 轮训练中记录的预测标签的一致性,一致时 ,不一致时 ;

S27:根据更新后的简单干净样本子集和困难干净样本子集构建监督训练损失函数;根据简单噪声样本子集和困难噪声样本子集构建无监督训练损失函数;将监督训练损失函数和无监督训练损失函数进行线性加权得到总损失函数对图像分类模型进行训练,重复执行步骤S21 步骤S27,直至达到预设的训练轮数,得到训练好的图像分类模型。

~

2.根据权利要求1所述的一种基于样本分级学习与纠正的含噪声标签图像分类方法,其特征在于,所述图像分类模型包括:特征提取器 、特征投影器 和分类器 ;

所述特征提取器 用于对样本进行特征提取,所述分类器 用于对特征提取器提取的特征进行分类,所述特征投影器 用于对特征提取器 提取的特征进行降维得到样本的低维特征。

3.根据权利要求2所述的一种基于样本分级学习与纠正的含噪声标签图像分类方法,其特征在于,所述计算每个图像样本的预测结果与实际标签之间的JS散度包括:其中, 表示第 个样本的JS散度, 表示散度函数, 是KL散度函数; 表示分类器输出的第 个图像样本的预测结果, 表示第 个图像样本的实际标签。

4.根据权利要求2所述的一种基于样本分级学习与纠正的含噪声标签图像分类方法,其特征在于,所述将图像数据集化分为小损失干净子集与大损失噪声子集包括:遍历图像数据集的每个类别,将每个类别下的图像样本按照其JS散度由小到大进行排序,并选择前比例的样本加入到小损失干净子集,其余样本加入到大损失噪声子集,遍历完所有类别后,得到划分好的小损失干净子集与大损失噪声子集;其中,的计算过程如下;

S221:根据图像数据集中所有图像样本的JS散度计算散度阈值:其中, 表示第 轮迭代时的散度阈值, 表示图像数据集中所有图像样本JS散度的平均值; 表示图像数据集中所有图像样本JS散度的最小值;表示过滤系数; 表示调整阈值取值;

S222:将图像数据集中JS散度值小于散度阈值 的图像样本占图像数据集的比例作为。

5.根据权利要求1所述的一种基于样本分级学习与纠正的含噪声标签图像分类方法,其特征在于,所述步骤S23包括:S231:将最近 轮训练中记录的预测标签相同的图像样本作为一致性干净样本添加到一致性干净子集,并定义一致性干净样本的一致性为 ;

S232:将在最近 轮训练中记录的预测标签不相同的图像样本作为不一致性噪声样本添加到不一致性噪声子集,并定义不一致性噪声样本的一致性为 。

6.根据权利要求2所述的一种基于样本分级学习与纠正的含噪声标签图像分类方法,其特征在于,所述总损失函数包括:其中, 表示总损失函数; 和 表示权重参数; 表示监督训练损失函数; 表示无监督训练损失函数; 表示简单干净子集 中样本的数量;

表示交叉熵损失函数; 和 表示权重参数; 表示困难干净子集 中样本的数量; 表示简单噪声子集 中样本的数量; 表示困难噪声子集 中样本的数量; 表示简单干净子集 中的第 个简单干净样本; 表示样本 的标签;

表示困难干净子集 中的第 个困难干净样本; 表示样本 的标签; 表示简单噪声子集 中的第 个简单噪声样本; 表示对比损失函数; 表示样本 的强增强样本; 表示样本 的弱增强样本; 表示样本 的强增强样本; 表示样本 的弱增强样本。