利索能及
我要发布
收藏
专利号: 2022103093854
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多标签不平衡数据分类的机器学习方法,其特征是,包括以下步骤,S1:根据多标签数据集的特点进行多次迭代,最终扩散至标签数据集的特征中;

具体为:S1‑1:利用LDA主题模型扩展多标签数据的特征集,预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;

S1‑2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入LDA主题模型中;

S1‑3:依据LDA主题模型计算法则,计算出实例‑主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;

S1‑4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以S1‑3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;

S1‑5:用S1‑3中的离散矩阵扩充原始的训练集特征空间,用S1‑4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转S1‑4,否则结束;

S2:根据多标签数据集的种群均衡适应度进行动态降采样操作;

具体为:S2‑1:计算多标签数据集的种群均衡适应度的值,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群;

S2‑2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的NP个个体同时置入连通网N中,此时形成一个有NP个顶点的连通网N={V,E},此时,该连通网形成了仅有NP个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;

S2‑3:根据克鲁斯卡尔原则,每次选取未被记入连通禁忌表的、复叠空间距离最近的两个个体,此时,若将这两个个体连通,系统的连通分量不减少,则撤销这次连通操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接,若将这两个个体连通,系统的连通分量减少的,转S2‑4;若已经不存在可以执行连通操作的符合要求的个体时,转S2‑5;其中,复叠空间距离按下式计算:其中,DC为复叠空间距离,DL(p,q)、DF(p,q)分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离;

S2‑4:将S2‑3中所传入的两个个体标记为连通,此时,非连通图T={V,E}同步更新,系统的连通分量也减少,若执行连通操作的两个个体中存在因操作使得其连接的顶点数超过

1的个体,将该个体记入连通禁忌表中,不再允许该个体与任意其他个体连接,完成后,转S2‑3;

S2‑5:计算此时的连通分量,将每个相互连通的个体作为一个个体组合处理,选取一个包含个体数量最多的个体组合,再从该个体组合中选取一条长度最短的边,对于该边的两个顶点上的个体,将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度;对于总长度较小的个体,将其从种群中删除,以实现单次降采样操作,当总长度值相同时,从种群中同时删除这两个个体;

S2‑6:利用标准IRLbl的计算方法,计算种群P的每个标签的标签平均不平衡率IRLbl(P)的值,当所有标签的标签平均不平衡率IRLbl(P)的均值IRLbl(L)仍高于所预设的阈值ERT时,返回S2‑1,否则结束;

S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇,同时在聚类之前记录标签序号;

S4:控制各标签类簇的最大规模,所有类簇都满足不超过3个标签的条件;

S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集;

S6:调用传统的多类不平衡分类器,对转化得来的多类数据集分别进行学习和预测,得到预测的多类分类结果;传统的多类分类器满足要求为:所选择的多类分类器在处理不平衡问题时,能有效地对至少5类分类问题进行有效区分;所选择的多类分类器,处理任务时,3

所需时间尽量少,算法时间复杂度低于O(n);

S7:将预测的多类分类结果重新转换为多标签分布结果,经转换还原原标签集顺序;

S8:利用Macro‑F1和Micro‑F1指标评价预测结果,在计算Macro‑F1和Micro‑F1值之前,按照如下公式计算准确率Precision和召回率Recall:其中,TP、True Positive真阳性:预测为正,实际也为正;FP、False Positive假阳性:预测为正,实际为负;FN、False Negative假阴性:预测为负、实际为正;TN、True Negative真阴性:预测为负、实际也为负。

2.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S4为:当标签的类簇超过3个,对类簇进行多次聚类,重新拆分为多个类簇,直至所得的全部类簇规模都不超过3个标签。

3.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S2‑1中种群均衡适应度的算法如下:在种群均衡适应度计算公式中,EFP为种群P的种群均衡适应度,EFL、EFF分别为种群标签均衡适应度及种群特征均衡适应度,NL、NF分别为种群中所包含的标签数量及种群中所包含的特征的维度,其中L和F分别表示种群中所包含的标签的集合及特征的集合,c1、c2为两个常数系数, 为种群中含有第i个标签的个体的数量, 种群中第j个特征值不为0的个体的数量。

4.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S1‑2中依据狄利克雷参数,确定各文档中主题先验分布和各主题中词分布,根据如下公式确定:在上式中,N为数据集中的实例个数,K为主题个数,θ为文档中主题的先验分布,即为数据集实例中主题的分布,φ为主题中词的分布,即为主题中标签的分布。

5.根据权利要求3所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S3中包括以下步骤:S3‑1:根据数据集的标签分布情况,将每个标签视为一个聚类元素,将每个实例视为标签特征的一维,作为一个计算Jaccard相似度的数据集,并记录标签顺序;

S3‑2:以Jaccard相似度为评测标准,计算所有标签之间的Jaccard相似度,然后根据计算结果进行层次聚类,用A,B分别代表两个标签的实例分布情况,根据如下公式计算各标签之间的Jaccard相似度:其中A,B分别代表两个标签的实例分布情况;

S3‑3:将聚类结果形成类簇,从而实现:利用类簇的形式对聚类结果进行结构性存储,便于对聚类结果进行进一步地处理。

6.根据权利要求1所述的一种多标签不平衡数据分类的机器学习方法,其特征是,所述S5中多标签分布与多类别分布的转换过程包括:当所得的全部类簇规模都不超过3个标签3

时,则所有类簇中的多标签分布最多不超过8种,对应的多类别分布即为8类,即2;此外,每个类簇中的标签个数可能不同,因此在训练多类不平衡分类器之前,令多标签分布唯一对应多类别分布,其对应规则应如下表所示:当各类簇中的多标签分布转换为多类别分布后,令LDA主题模型扩展后的多标签数据特征集分别与类簇合并组合为新的多分类数据集,其组合后的个数与类簇数相同。

7.一种多标签不平衡分类机器学习框架的系统:其特征在于,包括终端设备,所述终端设备采用互联网终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令由处理器加载并执行如权利要求1至6中任一项所述的一种多标签不平衡数据分类的机器学习方法。