买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于概率近邻的半监督分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于概率近邻的半监督分类方法

￥26800

专利号： 2018115982862

申请人：陕西师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于概率近邻的半监督分类方法，包括：

S100、准备原始数据集，所述原始数据集包括原始数据及其匹配的标签，原始数据的特征通过数据属性来描述，原始数据包括已标记数据和未标记数据两部分；

S200、对步骤S100准备的数据集进行预处理，得到已标记数据的标签指示向量矩阵VL；

S300、构造原始数据集的概率近邻矩阵S；

S400、构造原始数据集的类别信息矩阵F和概率转移矩阵P，将概率转移矩阵P初始化为所述步骤S300中得到的概率近邻矩阵S；

S500、基于步骤S400中初始化后的概率转移矩阵P，在原始数据集上进行标签传播，得到新的类别信息矩阵F’；

S600、使用已标记数据的标签指示向量矩阵VL对标签传播后的新的类别信息矩阵F’的已标记数据矩阵FL进行更新，防止标签信息的污染；

S700、检查步骤S500中得到的新的类别信息矩阵F’是否收敛，如果新的类别信息矩阵F’已经收敛不再变化，进入步骤S800，否则，返回步骤S500；

S800、通过收敛之后的新的类别信息矩阵F’得到原始数据集的分类结果。

2.根据权利要求1所述的方法，优选的，所述步骤S200具体包括：S201、将原始数据集定义为X∈Rn*d，其中Rn*d代表一个n行d列的矩阵，n是数据点的个数，d是数据点的属性个数；定义已标记数据矩阵为未标记数据矩阵为其中n1为已标记数据点的个数，n2为未标记数据点的个数，n＝n1+n2；

S202、根据已标记数据对应的标签构造已标记数据的标签指示向量矩阵：根据原始数据集已标记数据对应的标签构造标签指示向量矩阵V∈Rn*c，其中n是数据的个数，c是数据类别的个数，该标签指示向量矩阵V的第i行是第i个数据点的标签指示向量，如果第i个数据点的类别是j，那么该行的第j个元素为1，该行其余数据为0；根据原始数据中已标记数据的顺序，抽选标签指示向量V中的对应行构成矩阵作为已标记数据的标签指示向量矩阵。

3.根据权利要求2所述的方法，所述步骤S300具体包括：

S301、定义关于数据的增广矩阵A∈Rn*(d+c)，d是数据维度、表示数据属性的个数，c表示数据类别的个数，n是数据点的个数，A＝[X，V]；

S302、定义D∈Rn*n作为数据点之间的相似度矩阵，以欧氏距离作为测度计算出数据点i和j之间的相似性令作为矩阵D中第i行第j列的具体数值，将矩阵D按行升序排列，xi表示原始数据集X的第i行，xj表示原始数据集X的第j行；

S303、定义原始数据集的概率近邻矩阵为S∈Rn*n，S是n*n的矩阵，S矩阵中第i行第j列的值Si，j代表数据点i和数据点j成为概率近邻的可能性，定义k为近邻数，根据K-近邻(KNN)方法，将矩阵D按行选取前k个，得到K-近邻，然后在K-近邻的基础上构造概率近邻，具体为：定义p(i，k)为数据点i和它的第k个近邻之间成为概率近邻的概率，由公式得到；

再通过公式进行赋值，S(i，k)代表S矩阵中第i个数据点

的第k个近邻的取值，将S矩阵中未赋值的元素赋值为0，得到赋值后的概率近邻矩阵S；其中代表矩阵D中第i行第(k+1)列的具体数值，是矩阵D中第i行第j列的具体数值，是矩阵D中第i行第1列的具体数值，n是数据点的个数，X表示原始数据集。

4.根据权利要求3所述的方法，所述步骤S400具体包括：

构造原始数据集的类别信息矩阵F：F(0)＝[FL，0]，F(0)代表初始化的F矩阵：构造原始数据集的概率转移矩阵P：将概率转移矩阵P初始化为所述步骤S300中得到的赋值后的概率近邻矩阵S，有：P(0)＝S；其中，P∈Rn*n是概率转移矩阵，P(0)代表初始化的P矩阵，Pi，j表示P矩阵中第i行第j列的数值，表示第i个数据点将以概率Pi，j传播给第j个数据点。

5.根据权利要求4所述的方法，所述步骤S500具体包括：

通过公式F’(t+1)＝P*F’(t)进行标签传播，其中上标t表示迭代次数，F(t)表示第t次迭代过程得到的F’矩阵，F’(t+1)表示第t+1次迭代过程得到的F’矩阵，上式表示从第t次到第t+1次的标签传播过程，其中当t＝0时，F’(t)表示原始的类别信息矩阵F。

6.根据权利要求5所述的方法，所述步骤S600具体包括：

FL＝VL，每次迭代标签传播结束后将已标记数据FL重新赋值为VL，FL表示类别信息矩阵F的已标记数据矩阵，VL表示已标记数据的标签指示向量矩阵。

7.根据权利要求6所述的方法，所述步骤S800中：

收敛之后的新的类别信息矩阵F’每一行数据表示该数据的类别，如果Fij值为1，则第i个数据点的类别为j，从而从F’矩阵中能获得每个数据对应的类别，得到原始数据集的分类结果。

8.根据权利要求3所述的方法，所述步骤S303中，k近邻数的取值选择为5～20。