利索能及
我要发布
收藏
专利号: 2023103718268
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,包含以下步骤:S1、获取古董玻璃数据集,对古董玻璃数据集进行预处理,得到数值型数据并进行套索回归降维处理,得到最优特征子集;具体包含以下步骤:

1.1)对古董玻璃数据集进行预处理时,剔除无效数据后,对零成分进行替换,运用 准则,将各行样本点的0替换成各样本点中最小数据的三分之二倍;

1.2)古董玻璃由不同化学元素组成,每个样本点中各化学元素成分占比之和为100%,对于古董玻璃中各化学元素成分占比之和不等于100%的样本点,即样本点中各化学元素成分占比之和为 ,且 ;进行定和约束,用该样本点的每个化学元素 成分占比比上该样本点的成分占比之和 ,得到新的比例 ,替换先前化学元素 的成分比例数据;

1.3)采用Logratio非对称对数变换,将由化学元素组成的成分比例数据转换为数值型数据;

1.4)将数值型数据集中的样本点元素数值输入进行套索回归,记为 ,通过缩减变量集的正则化技术和惩罚函数构造回归模型,同时利用Ll范数,压缩模型系数;

1.5)套索回归的惩罚项为带惩罚系数 的 向量的 L1范数;不断调整 的值,降低模型数据的整体回归系数,不断压缩不显著的变量系数,直至其变为零,而变量系数不为零的为所需输入指标,得到降维后的古董玻璃数据集,即最优特征子集;

S2、根据不同古董玻璃标签的样本点数量将最优特征子集中的样本点进行分类,分别记为少数类样本点及多数类样本点,对少数类样本点采用高斯混合聚类的SMOTE方法,生成新样本点数据集 ;

S3、基于交叉验证的欠采样方法,将多数类样本点进行 次划分,将 折交叉验证过程实验中得到的 个处理后的数据 合并为处理后的多数类样本点,记为数据集 ,将数据集与数据集 的样本点合并生成平衡数据集 ;为大于1的自然数,为大于1的自然数;

S4、将平衡数据集 加入噪声,通过降噪自编码神经网络算法训练得到降噪后的数据集 ;

S5、将数据集 划分训练集与测试集,在逻辑回归和支持向量机分类模型中输入训练集,得到训练好的玻璃分类模型;将测试集的样本点带入训练好的玻璃分类模型得到古董玻璃种类预测结果。

2.根据权利要求1所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S2中,具体包含以下步骤:

2.1)根据不同古董玻璃标签的样本点数量将最优特征子集中样本点进行分类,分别记为少数类样本点及多数类样本点,少数类样本点数量小于多数类样本点;

2.2)针对少数类样本点,以肘部法则确定高斯混合聚类的初始组数,即聚簇数;在套索回归降维处理后的古董玻璃数据集基础上,对 进行迭代计算,得出最佳聚类簇;

2.3)在最佳聚类簇的基础上对少数类样本点进行高斯GMM聚类,聚簇中心点为C,定义与中心存在重叠的样本点为冗余样本点,删除冗余样本点,保留有效数据;

2.4)运用SMOTE过采样生成新的样本点,记为新样本点数据集 。

3.根据权利要求2所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S3中,具体包含以下步骤:

3.1)采用基于 折交叉验证过程将多数类样本点分成 个子集;多数类样本点共划分次,取第次划分中交叉验证过程中的第个子集记为 , ,将第次交叉验证过程划分的 个子集中除子集 以外的子集记为 ,将 与少数类样本点合并后训练古董玻璃分类器,并利用古董玻璃分类器预测子集 的数据,将子集 中被预测为少数类样本点的数据删除,得到处理后的 ;

3.2)将处理后的 合并为处理后的多数类样本点,记为数据集 ;

3.3)将新样本点数据集 的样本点与数据集 的样本点合并作为的新的平衡数据集。

4.根据权利要求3所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S4中,具体包含以下步骤:

4.1)首先构建降噪自编码神经网络算法的三层网络,在输入层输入平衡数据集 的每个样本点的化学元素,设输入向量为 ,使用非线性sigmond函数s作为神经元的激活函数, 为第一层映射到第二层的权值矩阵;网络第一层到第二层的变化如下:;

其中, , 是网络的偏置,通过第二层的输出结果 重构 ,公

式如下:

第三层输出 为通过第二层的 对第一层 的预测, 是网络第二层与第三次层之间的权值矩阵,网络中的权值矩阵约束为 , 是 的转置, 是第二层中网络的偏置;

4.2)训练自编码网络,对于单个古玻璃样本点,选用平方误差损失函数;

其中,是输入的维度, 表示第一层输入的 维 向量, 表示第三层预测的 维 向量,;

对于一个 个样本点的训练数据, 表示取第 个样本点时,输入的 维 向量; 表示取第 个样本点时,预测的 维 向量, ;样本点平均误差计算方法为:;

优化函数目标,对 , , 参数调节,使 值达到最小,权重 的更新规则如下:;

其中,表示学习率;

4.3)当 取最小时,达到消除噪音目的;对平衡数据集 消除噪音后,得到降噪后的数据集 。

5.根据权利要求4所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S5中,具体包含以下步骤:

5.1)将降噪后的数据集 分别带入Logistic和SVM分类器中,设置不同比例的训练集与测试集,选择预测准确率最高的比例,进行模型训练;

5.2)将训练集输入至逻辑回归与支持向量机分类模型中,当逻辑回归与支持向量机模型的评价指标去线下面积取得最大值时,完成模型训练,得到玻璃分类模型,将测试集的样本点带入已训练好的逻辑回归与支持向量机模型得到古董玻璃种类预测结果。

6.一种改进混合采样及降噪自编码下的古董玻璃分类系统,其特征在于,包含预处理模块、分类模块、交叉验证模块、降噪自编码训练模块、训练与预测模块;

预处理模块用以获取古董玻璃数据集,对古董玻璃数据集进行预处理,得到数值型数据并进行套索回归降维处理,得到最优特征子集;预处理模块包含替换单元、定和约束单元、转换单元、套索回归单元、压缩变量单元;

替换单元用以对古董玻璃数据集进行预处理时,剔除无效数据后,对零成分进行替换,运用  准则,将各行样本点的0替换成各样本点中最小数据的三分之二倍;

定和约束单元用以根据古董玻璃由不同化学元素组成,每个样本点中各化学元素成分占比之和为100%的情况下,对于古董玻璃中各化学元素成分占比之和不等于100%的样本点,即样本点中各化学元素成分占比之和为 ,且 ;进行定和约束,用该样本点的每个化学元素 成分占比比上该样本点的成分占比之和 ,得到新的比例 ,替换先前化学元素的成分比例数据;

转换单元用以采用Logratio非对称对数变换,将由化学元素比例组成的比例数据转换为数值型数据;

套索回归单元用以将数值型数据集中的样本点元素数值输入进行套索回归,记为 ,通过缩减变量集的正则化技术和惩罚函数构造回归模型,同时利用Ll范数,压缩模型系数;

压缩变量单元用以根据套索回归的惩罚项,即带惩罚系数 的 向量的 L1范数;不断调整 的值,降低模型数据的整体回归系数,不断压缩不显著的变量系数,直至其变为零,而变量系数不为零的为所需输入指标,得到降维后的古董玻璃数据集,即最优特征子集;

分类模块用以根据不同古董玻璃标签的样本点数量将最优特征子集中的样本点进行分类,分别记为少数类样本点及多数类样本点,对少数类样本点采用高斯混合聚类的SMOTE方法,生成新样本点数据集 ;

交叉验证模块用以基于交叉验证的欠采样方法,将多数类样本点进行 次划分,将 折交叉验证过程实验中得到的 个处理后的数据 合并为处理后的多数类样本点,记为数据集 ,将数据集 与数据集 的样本点合并生成平衡数据集 ;

降噪自编码训练模块用以将平衡数据集 加入噪声,通过降噪自编码神经网络算法训练得到降噪后的数据集 ;

训练与预测模块用以将数据集 划分训练集与测试集,在逻辑回归和支持向量机分类模型中输入训练集,得到训练好的玻璃分类模型;将测试集的样本点带入训练好的玻璃分类模型得到古董玻璃种类预测结果。

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求5中任意一项所述方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求5中任意一项所述的方法的步骤。