利索能及
我要发布
收藏
专利号: 2024105914722
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据特征提取方法,其特征在于,包括以下步骤:获取多个客户端的隐私样本数据集;

将多个隐私样本数据集中的数据分别输入深度神经网络中进行特征提取,得到多个特征数据集;根据多个特征数据集的特征点建立第一距离矩阵L,对所述第一距离矩阵L进行聚类,得到每个客户端的隐私样本数据集的聚类中心;

将多个客户端的聚类中心发送至模型构建端,根据多个客户端的聚类中心构建第二距离矩阵,并对第二距离矩阵进行再聚类,得到隐私数据特征;

将多个隐私样本数据集分别输入深度神经网络中进行特征提取,得到多个特征数据集,包括如下步骤:将隐私样本数据集中的样本信息统计数据输入深度神经网络中,根据深度神经网络的映射函数将样本信息统计数据分解为多个高斯分布;

确定多个高斯分布的方差与均值;

将多个高斯分布的方差与均值作为输出特征,得到多个特征数据集;

对所述第一距离矩阵L进行聚类,包括如下步骤:

使用希格切割函数对所述第一距离矩阵L进行特征值分解,选择分解出的第二小的非零特征值对应的特征向量,根据特征向量排序选择前m个节点,将前m个节点对应的m个特征向量组成一个n×m维度的矩阵H;

将矩阵H的每一行作为一个样本进行聚类,随机指定l个对象作为聚类中心,根据每个样本到聚类中心的距离将样本分配到各聚类中心代表的类中;

求取各类的均值,并将所述均值作为聚类中心重新聚类,并不断进行迭代,直到满足聚类要求。

2.如权利要求1所述的数据特征提取方法,其特征在于,所述根据多个特征数据集的特征点建立第一距离矩阵L,包括如下步骤:根据所述特征数据集中的相邻两个数据点的相似度计算数据点的权重,根据得到的权重构建权重矩阵W;

将特征数据集中的与数据点直接连接的所有边的权重之和定义为度,根据得到的多个度构建对角矩阵D;

对D和W做差得到第一距离矩阵L。

3.如权利要求2所述的数据特征提取方法,其特征在于,所述希格切割函数为:式中,SA代表各顶点间的距离; 代表所有SA的和;vol(A)代表A的度,即与A相连的所有顶点的权重之和,wij为两点间边的权重,V代表特征数据集的集合,A代表V中的数据点子集, 代表A的补集;

其中,令:

式中,wij为两点间边的权重,U为W的正交矩阵,Λ为W的对称矩阵,h(A)为用于求解矩阵H中的特征向量h的函数。

4.如权利要求2所述的数据特征提取方法,其特征在于,根据所述特征数据集中的相邻两个数据点的相似度计算数据点的权重,根据得到的权重构建权重矩阵W,包括如下步骤:步骤1:设定一个k值,根据所述k值选取与特征数据集中的数据点最近的k个顶点;

步骤2:计算k个顶点与所述数据点的距离,得到两点间的权重;若两个数据点中有一方不在另一方的k个最近顶点的集合中,则两个数据点间的权重为0;

步骤3:重复步骤1‑步骤2,直至获得所有数据点之间的权重;

步骤4:通过所有数据点之间的权重构建权重矩阵。

5.如权利要求4所述的数据特征提取方法,其特征在于,所述设定一个k值,包括如下步骤:在所述特征数据集中指定多个不相邻的k值,根据多个所述不相邻的k值绘制第一聚类性能指标曲线,通过所述第一聚类性能指标曲线寻找拐点,并将所述拐点作为初始拐点;

以初始拐点为基准,根据所述初始拐点所在位置区间内连续的k值绘制第二聚类性能指标曲线,通过所述第二聚类性能指标曲线寻找出新的拐点,将所述新的拐点作为设定的k值。

6.如权利要求1所述的数据特征提取方法,其特征在于,还包括非隐私数据特征提取,具体包括如下步骤:获取非隐私样本元信息;

对非隐私样本元信息进行编码,形成矩阵;

关联矩阵中的相近信息,并使用编码后的信息与不同维度的权重矩阵相乘,输出非隐私数据特征。

7.一种数据特征提取系统,其特征在于,包括:

数据集获取模块,用于获取多个客户端的隐私样本数据集;

聚类中心获取模块,用于将多个隐私样本数据集中的数据分别输入深度神经网络中进行特征提取,得到多个特征数据集;根据多个特征数据集的特征点建立第一距离矩阵L;对所述第一距离矩阵L进行聚类,得到每个客户端的隐私样本数据集的聚类中心;

隐私数据特征提取模块,用于将多个客户端的聚类中心发送至模型构建端,根据多个客户端的聚类中心构建第二距离矩阵,并对第二距离矩阵进行再聚类,得到隐私数据特征;

其中,所述聚类中心获取模块中的将多个隐私样本数据集分别输入深度神经网络中进行特征提取,得到多个特征数据集,具体为:将隐私样本数据集中的样本信息统计数据输入深度神经网络中,根据深度神经网络的映射函数将样本信息统计数据分解为多个高斯分布;

确定多个高斯分布的方差与均值;

将多个高斯分布的方差与均值作为输出特征,得到多个特征数据集;

所述聚类中心获取模块中的对所述第一距离矩阵L进行聚类,具体为:使用希格切割函数对所述第一距离矩阵L进行特征值分解,选择分解出的第二小的非零特征值对应的特征向量,根据特征向量排序选择前m个节点,将前m个节点对应的m个特征向量组成一个n×m维度的矩阵H;

将矩阵H的每一行作为一个样本进行聚类,随机指定l个对象作为聚类中心,根据每个样本到聚类中心的距离将样本分配到各聚类中心代表的类中;

求取各类的均值,并将所述均值作为聚类中心重新聚类,并不断进行迭代,直到满足聚类要求。

8.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至6任一项所述的方法。