1.一种利用自适应双阈值来进行半监督学习的方法,用于图像数据的数据标签及数据分类,包括以下步骤:S1、对于有标签数据,对其进行弱增广之后输入模型,将预测结果与其所属标签求交叉熵损失;
S2、在利用无标签数据对模型进行训练时,为每一分类提取一个自适应阈值;
S3、结合固定阈值和类自适应阈值组成了自适应双阈值,利用自适应双阈值来对无标签数据进行筛选,并对不同的无标签数据采取了不同的学习策略;
S4、提出一种新的相似损失;
对于S3,具体来说当模型对一个无标签数据的弱增广版本的预测中最大值大于固定阈值时,将无标签数据的弱增广版本的预测分布转为one‑hot标签并将其作为“锚”,与模型对其强增广版本的预测求交叉熵损失,若预测无法通过固定阈值,会用类自适应阈值再次对其进行筛选,若预测分布中最大值大于所属类自适应阈值,对其进行sharpen操作并作为“锚”,与模型对其强增强版本的预测求L2损失;
对于S4,所述新的相似损失定义为:
其中τ表示对于单个无标签数据的置信度阈值, 为不同无标签数据之间的相似度阈值,Sim函数计算两个分布之间的相似度。
2.根据权利要求1所述的一种利用自适应双阈值来进行半监督学习的方法,其特征在于,在执行S2过程中,对于输入模型的有标签数据,执行以下操作:其中c=argmax(y)表示x所属的真实类别,w(x)代表对x执行弱增广操作, 是类别c的类自适应阈值并且初始值设为0.95。
3.根据权利要求2所述的一种利用自适应双阈值来进行半监督学习的方法,其特征在于,对于输入模型的无标签数据,首先依靠固定阈值τ来决定是否利用它来计算损失:其中 代表模型对w(ub)的输出,对qb执行指数移动平均操作(EMA)得出并且 表示对无标签数据ub执行强增广,H表示对两个分布计算交叉熵损失;
之后对于无法通过固定阈值的无标签数据,利用类自适应阈值再次进行筛选并采取与上述不同的训练方法:这里 代表 中最大值所属类的类自适应阈值,当该无标签数据满足时,会以 为目标应用缓和的L2损失。