利索能及
我要发布
收藏
专利号: 2020102638949
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种增强的锚点图半监督分类方法,包括:

S100、准备数据集,所述数据集包括已标记数据 和未标记数据集 两部分,已标记数据集 的标记信息为 ,数据集中数据的特征通过数据属性信息来描述,表示已标记数据的个数,将数据集中的所有数据抽象为 维空间上的 个节点,其中第 个节点表示为 ;

S200、对步骤S100中准备的数据集采用锚点提取方法提取 个锚点,得到锚点集 ;

S300、根据步骤S200中得到的锚点集 ,使用基于锚点的概率近邻方法建立锚点集 中的锚点或已标记数据集 中的节点二者中任一与数据集中其他节点之间的关系,得到关系矩阵 ,关系矩阵 是一个 的矩阵,代表锚点集 中的锚点或已标记数据集 中的节点 二者中任一与数据集中其他节点 之间的相似度,具体为:,

其中, 代表 和 之间的相似度,表示锚点集 中的锚点或已标记数据集 中的节点,表示数据集中的其他节点, 表示 与 之间的距离,表示 是 的第 个近邻,为参数,其表示节点 连接距离其最近的 个已标记样本点或锚点作为该节点的近邻;

S400、将步骤S200中得到的锚点集 中的锚点和已标记数据集 中的节点作为节点构造图结构,利用扩展的标签传播(ELP)方法进行标签传播,具体为:S401、根据已标记数据集的标记信息 和锚点的标记信息建立初始的标签矩阵 ,,标签矩阵 是一个 的矩阵,其中 为已标记节点和锚点的总数,为标记的类别数, 表示锚点的标记信息,初始为0;若已标记数据集和锚点集的节点 的标记为 ,则,否则 ,其中 表示标签矩阵 第 行第 列的元素;

S402、根据锚点和已标记数据集中的节点的属性信息将其抽象为 维空间上的 个节点,由 个节点组成图,计算图中节点间的欧式距离,得到距离矩阵 ,距离矩阵 是一个的二维矩阵, 表示矩阵中第 行第 列的值,存储图中节点 和节点 之间的欧氏距离,其中 和 都包括已标记数据集中的节点和锚点集中的锚点;

S403、根据步骤S402中得到的距离矩阵 选择每个节点的近邻并定义权值矩阵 ,权值矩阵 是一个 的矩阵,其中 用来描述节点 和节点 之间的相似度,即权值矩阵第行第 列的值;

S404、根据步骤S403中的权值矩阵 定义概率转移矩阵 ,概率转移矩阵 是一个的矩阵,其中 是概率转移矩阵 第行第 列的值,用来描述标签信息从节点 传播到节点的概率,即节点 获取节点 的标签信息的概率;

S405、根据步骤S401中的标签矩阵 和步骤S404中的概率转移矩阵 迭代求解得到锚点的标记信息,锚点的标记信息和已标记节点的标记信息共同组成迭代后的标签矩阵 ,标签矩阵 是一个 的矩阵,表示矩阵中第 行第 列的元素;

S500、根据步骤S300中得到的关系矩阵 和步骤S400中得到的标签矩阵 进行标签传播得到最终的分类结果;

其中,所述步骤S200中,若数据集为像素级,则对像素级数据采用的锚点提取方法为超像素分割(SLIC)方法,具体为:S211,将图像细分成多个图像子区域,即图中的网格,每个图像子区域为一个聚类,其大小是 , ,其中 为像素个数即数据集中的节点个数,为锚点个数,初始时,选定每个网格中心的节点作为聚类中心,相邻两个聚类中心之间的距离为 ;

S212,以步骤S211中选定的聚类中心为中心,在 的邻域内重新选择聚类中心,具体为,移动聚类中心到该邻域内梯度值最低的位置,梯度值低表示此处的像素样本点相似度高,为每个像素点 设置距离 , 表示像素点 到其所在聚类的聚类中心的距离;

S213,对步骤S212得到的每一个聚类中心遍历其 的邻域内的每一个像素点,计算邻域内的每个像素点 和聚类中心之间的距离 ,若 ,则 ,并将该像素点 划分到该聚类中心所在的聚类中;

S214,重复步骤S213直到每个像素点的聚类中心达到收敛,则此时所有的聚类中心作为提取的锚点集合 。

2.根据权利要求1所述的方法,所述步骤S200中,若数据集为图像级,则对图像级数据分类采用的锚点提取方法为K均值聚类(K‑Means)方法,具体为:S221,图像级数据中每幅图像作为一个数据点,随机选取 个数据点作为初始的聚类中心;

S222,计算其他数据点与各个聚类中心的距离,并根据最小的距离对相应的数据点进行划分,即对于每个数据点来说,将其划分进距离其最近的聚类中心所在的聚类;

S223,计算每个聚类的均值并根据均值选择新的聚类中心,并选择均值最低的作为新的聚类中心,若聚类中心收敛,则方法终止,否则重复执行S222、S223,最终得到的所有聚类中心即为锚点集合 。

3.根据权利要求1所述的方法,所述步骤S401中,为已标记节点的标记信息矩阵,具体定义为:其中 是矩阵 第 行第 列的值,它表示对于已标记数据集中的节点 ,如果它的标记信息为 ,则 ,否则 ,是节点 的标记;

为锚点的标记信息矩阵,矩阵 的取值范围为:

其中 是矩阵 第 行第 列的值,它表示对于锚点 ,如果它的标记信息为 ,则 ,否则 ,为已标记数据集中的节点个数,为锚点和已标记节点的总数,初始时 。

4.根据权利要求1所述的方法,所述步骤S402中,图中节点 和节点 之间的欧式距离为:其中 表示数据的维度,、表示图中的第 、个节点,包括已标记节点和锚点, 和分别是节点 、第 维的坐标,根据节点间的欧氏距离生成距离矩阵 。

5.根据权利要求1所述的方法,所述步骤S403中,根据距离矩阵 ,使用kNN方法选择近邻,具体的:对于图中的每个节点,选择距离其最近的 个节点作为该节点的近邻,根据选择的近邻生成邻接矩阵 ,是一个 的矩阵,邻接矩阵 中,若 是 的近邻,则矩阵中相应位置 的值为1,否则为0, 表示邻接矩阵 中第行第 列的值,和 均包括已标记节点和锚点。

6.根据权利要求5所述的方法,所述步骤S403中还包括,根据邻接矩阵 和距离矩阵 定义权值矩阵 ,具体为:当 时,

当 时, ;是自然底数。

7.根据权利要求1所述的方法,所述步骤S404中样本特征空间的概率转移矩阵 ,具体为:。

8.根据权利要求1所述的方法,所述步骤S405中的迭代求解具体为:

S4051, , ,其中 为初始的标签矩阵,为初始的样本特征空间的概率转移矩阵;

S4052, ,其中 为第 次迭代后得到的标签矩阵,为第 次迭代后得到的概率转移矩阵,为第 次迭代后得到的标签矩阵,该步骤将第 次迭代得到的概率转移矩阵和标签矩阵的乘积赋值给 ;

S4053, ,其中 为第 次迭代后得到的已标记节点的标记信息矩阵,为初始的标记信息矩阵,该步骤将初始的标记信息矩阵赋值给 ,目的是保证初始的标记信息不会改变;

S4054, ,其中 为样本标记空间的概率转移矩阵,Nor表示对矩阵的归一化, 表达的是类别标签之间的相关性,即,如果 和 属于同类样本,则 的第行第 列元素为1,否则为0,该步骤将第 次迭代后得到的标签矩阵与其转置矩阵相乘后的矩阵归一化后赋值给 ;

S4055, ,其中 为第 次迭代后得到的概率转移矩阵,为第

次迭代后得到的概率转移矩阵,为参数,一般取0.4,该参数用于调整 和 所占比例,是一个 的矩阵,其中, 表示节点 是节点 的 个最相似的样本之一,否则, ;其中节点 和节点 均包括已标记节点和锚点,是Hadamard乘积, 表示两个矩阵的对应位置元素相乘组成的新的矩阵, 为第 次迭代后得到的样本标记空间的概率转移矩阵,该步骤将第 次迭代后得到的概率转移矩阵和 矩阵以一定比例相加后得到的矩阵赋值给 ;

S4056,重复执行步骤S4052至S4055直到收敛,此时的矩阵 即为迭代后的已标记节点和锚点的标签矩阵 。

9.根据权利要求1所述的方法,所述步骤S500中,根据关系矩阵 和标签矩阵 计算未标记样本的标记信息,具体包括:其中,表示标签矩阵 中第 列元素组成的向量,为关系矩阵第行组成的向量,表示节点 取得标记信息 的概率,参数 用于归一化, ,其中,是一个 的矩阵,矩阵中所有元素均为1,对于不同的类别 ,有其对应的参数 ,为已标记节点的个数,为节点总数, 代表将当 取得最大值时所得的值赋值给 ,即将标记 作为节点的标记,对所有节点获得标记后即完成数据的分类。