利索能及
我要发布
收藏
专利号: 2022108443816
申请人: 闽江学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于类解耦分布对齐的半监督医学图像分类方法,其特征在于,提出一种新的类解耦分布对齐方法,该方法根据矩阵基的变化,利用监督信息和非监督信息之间的内在关系,预测未标记样本的伪标签;同时,提出了一种新的可变条件队列来存储具有较高置信度的样本,可变条件队列的队列长度随标签置信度的变化而变化。

2.根据权利要求1所述的基于类解耦分布对齐的半监督医学图像分类方法,其特征在于,所述类解耦分布对齐方法实现如下:构造i个独立分布,每个分布都与原始分布对齐结构一致,以便指示向量空间中有标签样本和无标签样本的分布,即类解耦分布对齐;首先,通过EMA保留每个类别的有标签集分布 和置信度ci(X)(i=1,2,…,n),n等于整个数据集中的类别数;在更新无标签集分布和置信度ci(U)时,利用有标签样本对模型训练的内在影响,避免少数类陷入过度拟合:其中,X和U分别表示有标签集和无标签集,在生成ci(U)和 时,ci(X)和ci(U)之间的Gi被视为两个分布在降维后的定量差异,这促进了模型缩短两个分布之间的距离,并通过转换基使模型对局部扰动具有鲁棒性,其表示为:其中ω是一个超参数,表示决定更新速度的动量,无标签集分布 同样使用这种方法计算;类解耦分布对齐将通过以下公式表示:其中,q是无标签样本的预测,是DA之后的改进伪标签,Normalize(x)i=xi/Σjxj;受数据稀缺性和数据不平衡性的影响,迭代后的神经网络输出倾向于大多数类,这导致有偏的 产生;因此使用 作为有标签集分布,T为温度,分别控制每个类根据温度参数缩放后的输出;EMA获得的置信度ci(X)与有标签样本的数量有关,因此通过一个基本线性函数专门设置T:如果一个类别中有标签样本的数量较少,其T将变得更高;当Ti→1时,第i类的 将被转换以满足有标签集分布,从而缓解数据不平衡;通过置信度可以合理地控制温度的变化,以避免大多数样本的伪标签被错误地预测为多数类;当Ti→0时, 变化非常微小,以防止大多数类的预测被更新到其他类。

3.根据权利要求2所述的基于类解耦分布对齐的半监督医学图像分类方法,其特征在于,使用可变条件队列存储具有较高置信度的样本的实现方式如下:首先用有标签样本训练分类器,然后使用训练后的分类器对无标签样本进行分类,并选择置信度最高的数据作为伪标签:其中,p(·)是边缘分布,近似于有标签样本的分布,K是当前批次大小;

对齐后的无标签样本的伪标签qk与有标签样本一起在特征空间中传播;然而,在训练的初始阶段,模型没有完全学习到无标签样本的数据特征,导致大量无标签的数据被错误地标记;随着模型继续迭代,这些错误将累积,误导模型,并导致模型性能显著下降;另一个重要的考虑因素是资源消耗,通常的训练过程会在每次训练迭代中反向传播所有未标记样本的梯度,从而导致极大的时间消耗和不平衡分布;

因此提出了一种新的队列模块,称为可变条件队列,它通过阈值过滤来保持无标签样本的样本质量;在半监督学习任务中,获得的数据内部特征是有标签数据的置信度;因此,可变条件队列leni的长度由有标签数据置信度的历史状态调整:其中,N是队列的最大长度,Γ是重采样参数;此外,设定只有最高类别概率ci(U)超过预设阈值的人工标签及其对应样本才能入队:其中τi是过滤入队样本的阈值,δ是一个规范化的超参数,用于防止一些判断错误的样本在模型训练早期进入队列;假设一个无标签的样本 属于第i类,有:其中→是入队操作;阈值τ控制伪标签的质量和数量之间的平衡;当队列中有样本时,将对样本应用数据增强,以防止队列更新缓慢;

利用上述可信队列来代替原始的无标签集计算损失,损失函数表示如下,标准半监督框架的优化目标通常是最小化监督损失和无监督损失:l=ls+ηlu  (9)

其中ls是监督损失,lu是无监督损失,η是无监督损失的权重,ls和lu使用分类任务中常用的交叉熵损失,lu是使用软标签计算的,软标签包含不同类之间关系的信息;将无监督损失项的权重从0线性增加到其最终值η。