1.一种面向非平衡数据基于半监督分布式训练的任务识别方法,其特征在于,包括:步骤1,首先,针对待分类任务,利用边缘设备采集样本数据,将采集到的样本数据分为有标签集和无标签集;然后,边缘设备利用自身的预训练模型对采集到的样本数据进行处理,得出召回率和准确率,根据召回率和准确率得出待分类任务每个类别的数量,并根据每个类别的数量对各类别进行降序排序;最后,边缘设备获取到处理后的数据集,数据集中标签集和无标签集的边际类分布均是倾斜的;
步骤2,基于所述处理后的数据集,利用边缘设备、多层边缘节点和数据中心服务器组成的多层分布式训练结构,使用数据并行的分布式训练方法训练半监督学习模型,其中,边缘节点为训练节点时计算本地训练梯度,边缘节点为参数服务器时进行训练参数共享,一个参数服务器和多个边缘节点协同执行一个训练任务,数据中心服务器调度训练任务,每个训练任务经过分布式训练得到一个优化模型;
步骤3,利用训练得到的优化模型对标签集和无标签集实现类再平衡自训练,步骤如下:
步骤3.1,以训练得到的优化模型为教师模型,对无标签集进行预测,获得一个伪标签集;
步骤3.2,从标签集估计类分布,基于类再平衡规则,根据分布情况,从伪标签集中选取部分伪标签样本生成一个伪标签子集,利用伪标签子集扩展标签集,实现数据集的类分布平衡;
步骤3.3,基于步骤3.2所得类分布平衡的数据集,利用步骤2的方法训练一个新的模型,称为学生模型,并替代其相应的教师模型,通过设定一个阈值,到达该阈值后,结束自训练,得到识别任务模型;
步骤4,利用所述识别任务模型对新的待识别对象进行识别。
2.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤
1中,待分类任务有L个类别,有标签集χ={(xn,yn)},无标签集u={um},其中xn表示第n个有标签样本,n∈(1,…,N),N为有标签样本的总数, Nl为有标签集χ中第l类有标签样本的数量,yn为xn对应的类标签,yn∈{1,…,L},um表示第m个无标签样本,m∈(1,…,d d d
M),M为无标签样本的总数,um∈R ,xn∈R ,R表示待分类任务中的所有样本的存储矩阵,R为实数域,d为维数,根据每个类别的数量对各类别进行降序排序,得NL>……>Nl>……>N1其中NL是有标签集χ中第L类有标签样本的数量,其中N1是有标签集χ中第1类有标签样本的数量,有标签集χ和无标签集u共享相同的边际类分布,不平衡率 标签分数单个边缘节点所需训练数据量S=N+M。
3.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤
2,边缘节点作为训练节点时,训练节点之间不会通信,采用一种强同步的通信模式,每一个训练节点在完成一次迭代后会被堵塞,直到参数服务器收到所有训练节点传送来的梯度并将最新的参数值传递给所有训练节点后才能执行下一轮迭代计算。
4.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤
2包括:
步骤2.1,本地训练
边缘节点判断所述处理后的数据集是否达到本地训练所需数据量,数据量不足时将本地数据发送到下层边缘节点,直至满足本地训练所需数据量,相应的边缘节点为训练节点,训练节点利用标签集和无标签集进行半监督学习训练,然后将训练计算得到的梯度发送到下层边缘节点;
步骤2.2,参数聚合
当边缘节点进行聚合训练参数时,相应的边缘节点为参数服务器,参数服务器收集训练节点的训练参数,将参数进行聚合,聚合完成后发送回训练节点;
步骤2.3,任务调度
一个参数服务器和多个训练节点协同执行半监督学习的训练任务,多层分布式训练结构由多个训练任务组成,数据中心服务器同时处理多个训练任务。
5.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤
3.1,对无标签集进行预测,预测结果为一个概率区间,选取置信度最大的类别,生成对应的伪标签,获得一个伪标签集。
6.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤
3.2,首先,从有标签集χ估计类分布,被预测l类的无标签样本包含在伪标签子集 中的比率为 对于不平衡率γ,最少类 最多类 然后,通过类分布情况生成的伪标签子集 来扩展有标签集χ,即 χ′即再平衡标签集,是所有的伪标签样本。