1.一种基于特征组合优化的工业互联网恶意行为实时检测方法,其特征在于:包括以下步骤:S1、收集工业互联网恶意行为攻击数据,构建工业互联网安全数据集;
S2、对工业互联网安全数据集中的数据样本进行预处理;
S3、采用改进的快速相关过滤算法和决策树算法对预处理后的工业互联网安全数据集进行特征组合优化,筛减冗余特征和对分类结果影响低的特征,具体包括:S31、首先通过计算每个特征与类别之间的对称不确定性SU来评估特征与类别之间的相关性程度,值越大则表示特征对分类的影响程度越高,特征F与类别C的对称不确定性SU(F,C)如下式所示:式中,H(F)、H(C)分别表示特征F和类别C的信息熵,H(C|F)表示条件熵;
S32、设定对称不确定性阈值,滤除掉与类别不相关和相关性极低的特征,将大于阈值*的特征集合形成特征组合D;
* *
S33、选择D中对称不确定性最大的特征Fj加入到目标特征组合D中,并从D中删除Fj;
S34、基于近似马尔科夫毯准则删除相关性较高的特征组合中的冗余特征,若特征Fn是特征Fm的冗余特征,则需满足以下条件:* *
在特征组合D 查找Fj的近似马尔科夫毯子集,删除特征组合D 中满足SU(Fi,Fj)>SU(Fj,C)的特征Fi;
S35、以特征维度作为冗余特征删除的停止准则,重复步骤S33和S34,得到候选特征组合D;
S36、重复步骤S33~S35,通过参数特征维度的不同配置得到若干合适维度的候选特征组合;
S37、以决策树作为评估器,整体准确率作为评价准则,将通过改进的相关性快速过滤算法所得到的多组候选特征组合数据分别作为模型的输入,得到各组优化后的样本数据的整体准确率;
S38、筛选出候选特征组合中准确率最高的特征组合,将其构成的样本数据作为步骤S4中分类模型的输入;
S4、基于极端梯度提升算法构建分类模型,对特征组合优化后的工业互联网恶意行为数据样本进行分类,具体包括:采用极端梯度提升算法构建分类模型的过程中,通过优化目标函数寻求最优的树结构,目标函数在传统损失函数的基础上定义了模型复杂度,同时引入正则项控制模型的复杂度,目标函数的最优值如下式:式中,gi和hi分别表示损失函数的一阶导数和二阶导数,γ表示复杂度惩罚项,λ表示正则化参数,Ij表示索引为j的叶子节点上所有样本的集合,T表示叶子节点数目;
采用贪婪算法求解最优树,选取结构分数之差最大的特征进行分枝,从而构建最优树模型;
S5、采用贝叶斯优化对分类模型的超参数组合进行自适应调整,利用特征组合优化后的样本数据对分类模型进行训练,保存最优模型,并对测试样本进行预测,得到工业互联网恶意行为样本的分类结果。
2.根据权利要求1所述的工业互联网恶意行为实时检测方法,其特征在于:步骤S2具体包括以下步骤:S21、缺失值处理:采用平均值法填补数据样本中的缺失值;
S22、归一化:按照下式将所有数据样本取值统一映射至区间[0,1]:式中, 和Xi分别表示归一化处理前和处理后的特征值,i表示样本数,Xmax和Xmin分别表示特征列的最大值和最小值。
3.根据权利要求1所述的工业互联网恶意行为实时检测方法,其特征在于:步骤S3中,结合改进的相关性快速过滤算法和决策树算法对目标属性集进行约简,基于对称不确定性信息度量指标和近似马尔科夫毯准则进行特征相关性计算、冗余特征识别与排除,通过参数特征维度的不同配置得到若干候选特征组合,采用决策树算法准确率作为评估准则筛选出准确率最高的特征组合作为分类模型的输入。
4.根据权利要求1所述的工业互联网恶意行为实时检测方法,其特征在于:步骤S5具体包括以下步骤:S51、将特征组合优化后的数据样本按照7:3的比例划分训练集和测试集;
S52、采用贝叶斯优化对分类模型超参数进行自适应调整;
S53、设定分类模型的迭代次数为100,利用训练集样本数据训练分类模型,保存贝叶斯优化所得到的最优超参数组合,同时保存对应的最优模型;
S54、调用所保存的最优模型,对测试集样本数据进行分类,输出各类工业互联网恶意行为样本的分类结果。