1.一种基于PLI4DA的网络入侵检测方法,其特征在于,包括如下步骤:步骤1,获取数据集并进行预处理,获取常用、公开的入侵检测数据集,对数据集进行预处理成可以输入神经网络的格式,同时将训练集作为源域数据,测试集作为目标域数据;
步骤2,模拟训练源域模型,使用源域数据训练一个单分支源域模型;
所述源域模型包括多个一维卷积层、池化层、全连接层和分类层;
步骤3,定义新的目标域模型,其中目标域模型在分类层之前的网络结构和源域模型相同,并加载源域模型中已经训练好的权重、参数,目标域模型中定义两个输出单元数均为n的全连接层分支,分别为源域正则化和目标自学习分支;
步骤4,利用目标域模型获取目标域数据伪标签,具体实现方式如下:步骤4.1,获取每条样本经过目标域模型的分类预测矩阵,依据此矩阵计算每条样本的自熵值;
步骤4.2,找到每类样本对应的最小自熵,然后从分类的自熵中找到最大值作为阈值,选出小于等于该阈值的样本,经过目标域模型的特征提取得到的特征矩阵并添加到按分类对应的字典里,该字典称为适应性可靠样本存储ARSM;
步骤4.3,计算每条无标签目标域样本的相似分数,样本经过特征提取得到特征矩阵,和步骤4.2的字典中每一类包含的全部样本特征矩阵计算相似分数,分数最高对应的类型即为目标域数据的伪标签;
步骤5,目标域模型中神经网络的训练;
步骤6,每隔几轮训练次数更新步骤4.2中的字典,以获得更接近真值标签的伪标签;
步骤7,最终得到一个新的目标域模型文件,其中存储了目标域模型中神经网络的权重,加载该目标域模型文件以实现网络入侵检测。
2.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤1的具体实现包括;
步骤1.1,数据清洗,删除异常值、填补缺失值;
步骤1.2,为了加快神经网络的收敛速度,将数据进行min‑max归一化处理,X为某条数据,Xmin和Xmax分别代表数据的最小和最大值,公式如下:其中XN为归一化处理后的数据。
3.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤2中源域模型的具体结构如下;
步骤2.1,定义5个一维卷积层,分别命名为Conv1, Conv2, Conv3, Conv4, Conv5,卷积核个数分别为32、32、64、32、32,卷积核大小分别为3、5、5、5、5,激活函数均为RELU,其中Conv1,Conv2,Conv3依序相连,而Conv4, Conv5分别连接至Conv2, Conv3;
步骤2.2,定义2两个最大池化层,分别命名为Maxpool1,Maxpool2,激活函数均为RELU,池化大小均为3,步长分别为2、1,分别同卷积层Conv4和Conv5相连;
步骤2.3,定义2个全连接层,分别命名为FC1, FC3,单元数为512和32,激活函数均为RELU,并使用Dropout方法临时停用部分神经元以防止过拟合,Dropout概率为0.5,分别同Maxpool1和Maxpool2相连;
步骤2.4,再定义2个全连接层,命名为FC2, FC4,单元数均为32,激活函数均为RELU,分别同FC1, FC3相连,随后利用拼接函数concat进行特征矩阵拼接;
步骤2.5,定义最终的单分支输出全连接层FC5,单元数为5,激活函数为Softmax,作为最终的分类层。
4.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤3的具体实现方式如下;
步骤3.1 冻结源域模型的所有层;
步骤3.2 和单分支源域模型不同,目标域模型中定义两个输出单元数均为n的全连接层分支,激活函数均为Softmax,分别为源域正则化和目标自学习分支;
步骤3.3 目标域模型加载源域模型的权重、参数。
5.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤4.1中自熵值的计算公式如下;
其中H(xt)为自熵值,l(xt)为分类预测概率,Nc为分类数量,xt表示目标域样本。
6.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤4.2中设C={1,…,Nc}为类集,则阈值为 ,c为分类编号,Hc表示第c分类目标域样本的自熵值;存储每类中的可靠样本到集合
,Xc表示第c分类目标域样本集,Ft (xt)表示目标
域样本xt经过目标域模型特征提取后的特征矩阵,Ft (·)为特征提取函数;作为字典,ARSM中的键为类集C,值为Mc,由此ARSM中添加了C和Mc之间的映射关系。
7.如权利要求6所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤4.3中相似分数的计算公式如下:其中,Sc为xt在第c类的相似分数,xt表示目标域样本,Mc是ARSM的第c类对应的特征矩阵集,pc为Mc中某个特征矩阵,ft即为Ft (xt)。
8.如权利要求6所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤4还包括,计算每个目标域样本的置信分数,基于置信的过滤机制筛选特征矩阵和伪标签,若w(xt )=1表示ft和伪标签 是可取的,xt表示目标域样本;
设单元素集合S={ft },ft为目标域样本经过目标域模型的特征矩阵,S同Mt1的相似度可以用Hausdorff距离定义,公式如下:Mt1表示第一近类对应的特征矩阵集,第一近类为步骤4.3中得到的相似分数最高对应的类别;
S同Mt2的距离则计算为:
Mt2表示第二近类对应的特征矩阵集,第二近类为步骤4.3中得到相似分数排名第二所对应的类型,其中 为距离度量函数,a,b为变量;
最终的每个目标域样本的置信分数为:
。
9.如权利要求6所述的一种基于PLI4DA的网络入侵检测方法,其特征在于:步骤5的具体实现方式如下;
步骤5.1,为了防止域偏置,无标签目标域数据经过源域模型得到面向源域的伪标签,Dt为目标域数据,E为每个分类的数学期望,经过目标域模型的源域正则分支也得到一个预测标签,计算两者的源域正则损失Lsrc,公式如下:其中,公式中的1为指示函数,当 时,即面向源域的伪标签 为第c类时,该指示函数输出为1,否则为0, 为目标域模型的源域正则化分支输出;
步骤5.2,无标签目标域数据经过目标域模型的预测标签,和步骤4.3得到的伪标签计算得到自学习损失Lself,公式如下:其中,公式中的1为指示函数,当 时,即步骤4.3得到的伪标签 为第c类时,该指示函数输出为1,否则为0,Ct为目标域模型的目标自学习分支输出;
因此网络总体优化目标为:
上式中的α表示源域正则化损失和自学习损失的平衡参数,且α∈(0,1),α越小则说明模型学习更偏向源域,反之更偏向目标域,最后,依据总体损失函数 对目标域模型中神经网络进行梯度更新、反向传播。