利索能及
我要发布
收藏
专利号: 202411347520X
申请人: 湖南科技学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-25
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的异常数据检测与分类方法,其特征在于,包括如下步骤:S1、获取目标数据集,对目标数据集进行预处理;

S2、构建多层神经网络模型,依次包括输入层、若干隐藏层及输出层;

S3、利用Scikit‑learn中的半监督学习模型对目标数据集进行初步训练,所述半监督模型包括半监督k近邻模型和半监督支持向量机模型,分别对目标数据集进行训练,从带有部分标注和无标注的目标数据集中提取初步异常检测特征;

S4、将Scikit‑learn半监督模型的初步异常检测特征与多层神经网络模型输出的异常检测结果进行集成,构建集成模型;

S5、通过监督学习的方式对集成模型进行训练,训练数据集包含正常数据和异常数据,基于分类损失函数优化集成模型权重;

S6、将训练完成的集成模型应用于待检测目标数据集,对待检测目标数据集进行特征提取,并集成模型判断数据点是否为异常数据,输出初步检测结果;

S7、对检测出的异常数据进行进一步分类,将异常数据划分为不同类型,生成分类结果;

S8、实时监控新输入的数据流,根据检测与分类结果更新集成模型。

2.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述S1包括:S11、获取目标数据集:

D={x1,x2,…,xn};

其中,xi为目标数据集中的第i个数据点,i=1,2,…,n,n为数据集中的样本数量;

S12、使用基于均值滤波的去噪算法对目标数据集D进行数据去噪处理,对每个数据点进行处理,得到去噪后的目标数据集D';

S13、对去噪后的目标数据集D'进行缺失值填充处理,通过插值法对缺失值的位置的值进行填充得到填充后的目标数据集D”;

S14、采用Min‑Max归一化方法对填充后的目标数据集D”进行归一化处理,将每个数据点x″i映射到区间[0,1],得到预处理后的目标数据集:

3.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述S2包括:S21、构建输入层,输入层用于接收预处理后的目标数据集,输入层通过将每个数据点映射至高维特征空间提取初步特征;

S22、构建若干隐藏层,隐藏层由多层非对称神经网络组成,每一隐藏层对数据进行特征提取,采用ReLU激活函数对输入特征进行非线性变换;

S23、在隐藏层中引入多分支结构构建多个分支网络,每个分支网络处理目标数据集不同维度的特征,每个分支网络输出特征进行综合获得异常检测效果,分支网络的输出计算公式为:其中, 和 分别为第i层两个分支的输出, 和 分别为第i层的权重矩阵,表示输入特征与隐藏层节点之间的连接权重; 和 分别为第i层分支的偏置向量,调整特征的线性变换结果;

S24、构建用于处理未标注数据集的自监督学习模块,自监督学习模块自动学习异常特征模式并更新多层神经网络模型;

S25、构建用于生成异常检测结果输出层,采用Softmax函数将多层神经网络模型的输出结果映射为多类别的概率分布,用于对不同类型的异常数据进行分类,Softmax函数根据输入数据的特征计算属于不同异常类别的概率分布,生成最终的分类结果:其中,P(y=k|x)表示输入数据x属于第k类异常数据的概率,Wk为输出层中第k类异常的权重矩阵,K为异常数据类别总数。

4.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述S3包括:norm

S31、利用Scikit‑learn中的半监督k近邻模型对目标数据集D 进行初步训练,目标数据集包括带有部分标注数据和无标注数据,通过非线性权重距离计算数据点之间的加权距离,提取初步异常检测特征:其中,dw(xi,xj)为加权距离, 和 分别为数据点xi和xj在第k维特征上的值,m为特征的维数,wk为第k维特征的权重,α、β、γ为非线性系数;

S32、利用Scikit‑learn中的半监督支持向量机模型对目标数据集进行训练,通过优化基于多尺度正则化的决策边界公式对数据点进行分类:其中,f(x)为输入数据x的分类决策函数,xi为支持向量,K(xi,x)为核函数,αi为拉格朗日乘子,b为偏置项,nl为标注数据的数量,λ为正则化系数, 为核函数梯度;

S33、将半监督k近邻模型和半监督支持向量机模型提取的初步异常检测特征进行集成,生成目标数据集的初步异常特征集合:其中,Φ(xi)为数据点xi的综合异常特征,σ为非线性激活函数,P为特征集成分支数量,ωp为每个集成分支的权重,Q为支持向量机的分类函数个数,μq为每个分类函数的权重,fq(xi)为不同支持向量机模型输出的分类决策结果。

5.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述构建集成模型包括将Scikit‑learn半监督模型提取的初步异常检测特征集合Φ(xi)与多层神经网络模型的输出分类结果PNN(yi=k|xi)进行集成,生成集成特征向量:其中, 为集成模型的最终预测输出,σ为激活函数,Wensemble为集成模型的权重矩阵,α和β为集成系数,分别对应半监督模型特征和多层神经网络输出的权重,bensemble为偏置项。

6.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述S5包括:S51、构建包含正常数据和异常数据的训练数据集,训练数据集为:Dtrain={(x1,y1),(x2,y2),...,(xn,yn)};

其中,xi为第i个数据点,yi为对应的标签,yi=0表示正常数据,yi=1表示异常数据,训练数据集中的每个数据点都经过前处理和特征提取生成集成特征向量ψ(xi);

S52、将训练数据集Dtrain输入集成模型,通过前向传播计算模型的预测输出 集成模型的输出表示数据点xi属于异常类别的概率:(j)

其中,σ为非线性激活函数, 为集成模型第j类的权重矩阵,ψ (xi)为第j类的特征输出, 为偏置项,δj为正则化系数, 为集成模型特征空间的梯度正则化项;

S53、定义二分类交叉熵损失函数用于衡量集成模型的预测输出与真实标签之间的误差,损失函数的定义为:其中,L为总损失, 为集成模型预测的异常概率,yi为真实标签,λ为正则化系数, 为L2正则化项,防止模型过拟合;

S54、通过反向传播算法计算损失函数L对集成模型权重 和偏置 的梯度更新为:

其中,η为学习率, 和 分别为损失函数对权重和偏置的梯度。

7.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述S6包括:S61、将训练完成的集成模型应用于待检测目标数据集Dtest,对待检测目标数据集中的每个数据点进行特征提取,提取的特征表示为ψtest(xi);

S63、将特征向量ψtest(xi)输入到集成模型,通过集成模型计算数据xi属于异常类别的概率:Pensemble(yi=1|xi)=σ(Wensemble·ψtest(xi)+bensemble);

其中,Pensemble(yi=1|xi)表示数据点xi属于异常类别的概率,Wensemble为集成模型的权重矩阵,bensemble为偏置项,σ为激活函数;

S64、根据集成模型的输出结果,判断数据点xi是否为异常数据,设定异常检测的阈值τ,如果Pensemble(yi=1|xi)≥τ,则判断数据点xi为异常数据,否则为正常数据,最终输出初步检测结果:其中, 为数据点xi的初步检测结果,τ为异常检测的分类阈值,用于区分正常数据和异常数据。

8.根据权利要求1所述的一种基于深度学习的异常数据检测与分类方法,其特征在于,所述S7包括:S71、将初步检测出的异常数据集 输入到分类模型中,k为异常数据点的数量,分类模型用于对异常数据进行细分类;

S72、利用分类模型对异常数据进行分类,分类模型的输出为每个异常数据点属于特定异常类型的概率分布,分类结果表示为:其中,Pclass(yi=c|xi)表示异常数据点xi属于第c类异常的概率, 为分类模型的权重矩阵, 为第c类的偏置项,C为异常类型的总数;

S73、根据分类模型的输出概率将每个异常数据点xi分配到概率值最高的异常类别生成分类结果,分类结果表示为:其中, 为异常数据点xi的最终分类结果,表示数据点属于的异常类别。