利索能及
我要发布
收藏
专利号: 2021112325324
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于混合特征选择的辛烷值损失预测方法,其特征在于,包括如下步骤:S1:获取从催化裂化汽油精制装置采集的样本原始数据;

S2:将数据样本进行预处理;

S3:使用k‑means聚类算法初步筛选变量:S4:使用皮尔逊相关系数检验变量的线性关系,并用距离相关系数检验变量的非线性关系,将与其它变量相关性较高的变量剔除:S5:根据决策树计算的各变量重要性,得到建模的最终变量;

S6:根据辛烷值损失和筛选的变量,建立多元线性回归模型并进行训练。

2.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S2具体包括以下步骤:S201:将数据缺失过多的操作变量进行删除;

S202:根据拉依达准则去除数据中的异常值;

S203:对部分时间点的数据为空值的位点,空值处用其前后两个小时数据的平均值代替;

S204:以辛烷值数据测定的时间点为基准时间,取其前2个小时的操作变量数据的平均值作为对应辛烷值的操作变量数据。

3.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S3具体包括以下步骤:S301:将归一化后的变量数据作为k‑means算法的训练集,初始化k个聚类中心;

S302:计算变量到各个簇质心的欧式距离,将其分配到距离最近的簇,重新计算簇的质心;

S303:重复所述步骤S301、步骤S302直至每个簇的质心不再变化;

S304:画出误差平方和SSE与k值的曲线图,采用肘部法则确定簇的最佳个数,选择每个簇的质心作为初步筛选的变量。

4.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S4具体包括以下步骤:S401:计算每个变量与其他变量的皮尔森相关系数以检验线性相关性,计算公式如下:S402:计算每个变量与其他变量的距离相关系数以检验非线性相关性,计算公式如下:其中,距离协方差 和 分别为:

同理计算距离协方差 和 其中X和Y是进行相关分析的两个变量,n表示样本个数;

S403:得到变量的皮尔森和距离相关性矩阵,计算各变量与其他变量相关系数的均值,剔除掉均值大于阈值的变量。

5.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S5具体为:采用决策树计算每个变量的重要性,计算分支节点的Gini指数下降程度之和(Giniimportance,GI),计算公式如下:其中,N是样本的总数,Nt是当前节点的样本数量, 是结点右孩子的样本数目, 是结点左孩子的样本数目,G为Gini指数,Gl和Gr为别表示左右分支的Gini指数;

计算出每个变量的重要性后,进行排序,筛选出重要性高于阈值的变量。

6.根据权利要求1所述的基于混合特征选择的辛烷值损失预测方法,其特征在于,所述步骤S6中建立多元线性回归模型包括:以均方根误差作为损失函数,并采用自适应梯度下降的AdaGrad算法优化。