1.一种物联网入侵检测方法,其特征在于:包括以下步骤:
步骤1,将入侵检测数据集送入GWR‑GCN特征提取器提取源域和目标域的域不变特征;
其中GWR‑GCN特征提取器通过将数据样本转化为图节点,对相关样本连接在一起构建出图结构数据,并通过图卷积的方法挖掘样本之间的关联信息;具体包括:
1.1,利用按要求增长网络GWR将入侵检测数据转换为图结构数据的算法流程如下:假设 是入侵检测数据集,每个数据样本代表一个节点, 是所选样本节点的集合, 表示第 个节点, 是第 个节点权重向量; 是边的集合,age( )表示边( )的权重, 为权重阈值; 为节点 的访问强度, 为初始访问强度,步骤如下:
1.1.1,从入侵检测数据集 中随机选取两个节点样本 和 组成集合 ;
1.1.2,初始化边集 为空集;
1.1.3,从入侵检测数据集 中随机选取一个未选择过的样本 作为新输入的样本节点 ;
1.1.4,对每个节点 ,计算其到新输入节点 的距离 ;
1.1.5,选取最佳样本节点 和次最佳样本节点
;
1.1.6,如果边( )不存在则创建它, 并设其权重age( )为0;
1.1.7,计算节点 与最佳匹配节点 的相似性 ;
1.1.8,如果 小于相似性阈值 ,并且访问强度小于访问强度阈值 ,则在 和 之间添加一个新的节点 ,创建权向量: ,创建边 和 并删除旧边 ;
1.1.9,否则,不增加新的样本节点,调整最佳样本节点 及其邻居节点 的位置:, , , 为节点 的访
问强度, 、 为位置更新参数;
1.1.10,增加与 相连的所有边的权重:
1.1.11,更新最佳匹配节点 及其邻居节点 的访问强度:
其中,为访问强度常数, 、 、 为访问方程参数, 为第 个节点在第次被算法访问时对应的访问强度;
1.1.12,去除所有权重大于权重阈值 的边,去除所有孤立样本结点;
1.1.13,若数据集中存在未被选取的样本,返回步骤1.1.3继续选取;
1.1.14,根据节点集 和边集合 构建出入侵检测数据集 相对应的图结构数据G;
1.2,通过图卷积神经网络GCN对输入的图结构数据进行处理,挖掘相关联节点之间的特征信息,具体包括以下内容:图卷积神经网络GCN是直接对图进行运算的神经网络;无向图由 表示,其中 是节点集合, 代表边集合, 是一个由 个节点和相应特征组成的特征矩阵,为节点个数, 为特征向量维度;给定邻接矩阵 ,每个图卷积神经网络GCN层都写成非线性函数:其中, 为输入特征矩阵, , 为第1层特征矩阵; 和
分别是权重矩阵和偏置矩阵, 是每个节点输出特征的维度; 是一个非线性激活函数;
是归一化对称邻接矩阵,计算为:
其中, 是无向图 的度矩阵,是单位矩阵;如果多个卷积层堆叠在一起,则聚合来自更远相连节点的信息:其中, 表示第 层特征矩阵, 和 分别是第 层图卷积神经网络GCN的权重矩阵和偏置矩阵;在入侵检测的图结构数据建立之后,图结构数据被输入到多层图卷积神经网络GCN中,通过对各个节点信息和各节点相关联信息的挖掘,最终提取出能够进行跨域学习的域不变特征;
最后,将经过多层图卷积神经网络GCN提取的特征数据 输入到softtmax分类器中,对每个样本节点进行分类预测,Z是样本的预测结果,其中选取ReLU作为激活函数,计算各节点的交叉熵损失函数:图卷积神经网络GCN通过堆叠卷积层来聚合来自各个相连节点的信息,这种方法考虑到节点本身和其他节点的相关系,有助于提取更加能表示全局信息的特征,从而在领域自适应中构建域不变特征;
步骤2,利用Copula分布对齐方法对步骤1中得到的源域和目标域的域不变特征进行分布对齐;
通过定义Copula距离将源域和目标域的总体特征分布差异分为单一特征边缘分布差异和特征之间联合分布差异,减小源域和目标域特征的边缘分布差异和联合分布差异,实现数据分布对齐;
基于copula距离的数据分布对齐方法具体包括:
Sklar定理指出,任何多元分布都能够分解为边际分布和一个copula函数的乘积,反之亦然;因此,copula函数与边际分布能够恢复原来的多元分布;连续密度函数 能够写成边际分布 和Copula密度函数 的乘积,如下式所示:其中,
将数据分布总体差异划分为单一特征的边缘差异和不同特征之间的相关性差异两部分,不同特征之间的相关性差异通过Copula距离来度量;Copula 是一个用于描述多个随机变量之间相互关系的函数,Copula能够分离多个随机变量的边缘分布与随机变量之间的依赖结构;通过使用 Copula,能够更好地描述和建模多个特征之间的关系,而不受各自特征边缘分布的影响;
给定多随机变量 ,及其边缘分布 和Copula密度函数 则Copula熵( )定义为:使用 copula 函数能够对随机向量 中任何分量[ ]之间的相关程度进行清晰的定量化;特征 和 之间的相关性由公式(10)来表示:其中, 为[ ]的联合分布, 、 表示边缘分布, 是密度函数;因此,对于特征 和 之间相互依赖关系的度量,等价为计算 和 的互信息;
设两个随机向量为 和 ,其中 , 设
和 是 和 任意分量对[ ] 和 [ ]各自的累积联合分布;设 为分布差的度量;定义[ ] 和 [ ] )两者之间的copula距离为:随机向量X和Y之间的copula距离为:
基于copula的数据分布对齐方法,以更多的关注不同特征之间的相互关系或依赖性的差异,加强对边缘差异和相关性差异的敏感性;在源域上,将源域特征 的数据分布分解为m个特征边际分布和特征之间的copula距离,同时对目标域进行同样的处理;对源域和目标域之间的总体数据分布差异分成边际差异和copula距离两部分进行评估,通过分割联合特征分布的总体差异,能够确定边际特征差异和copula距离分别对数据分布对齐的贡献程度;
将边际差异和copula距离作为源域和目标域的总体数据分布差异,得到数据分布对齐的目标函数Distence,通过最小化目标函数实现源域和目标域的数据分布对齐:其中,源特征和目标特征之间的copula距离表示为 ,单一特征边缘差异之和表示为 , 为源域特征和目标域特征, 分别表示源域第个特征和目标域第 个特征;
步骤3,构建基于条件域对抗入侵检测模型进行攻击检测。
2.根据权利要求1所述的一种物联网入侵检测方法,其特征在于:在步骤3中,利用条件域对抗神经网络进行鉴别器和特征提取器的对抗训练,在鉴别器中添加类信息条件,减少域偏移对跨域检测性能的影响,提高特征分布对齐的准确性,加强基于条件域对抗入侵检测模型在物联网入侵检测方面的跨领域检测能力;利用训练好的基于条件域对抗入侵检测模型进行网络攻击的检测,预测出正确的网络攻击类别。
3.根据权利要求1所述的一种物联网入侵检测方法,其特征在于:在步骤3中,构建基于条件域对抗入侵检测模型的具体过程如下:Ganin 将生成对抗网络的思想引入领域适应从而提出领域对抗性神经网络DANN,领域对抗性神经网络DANN结构包含3个部分:特征提取器、源域分类器和鉴别器;
特征提取器将提取的域不变特征传入鉴别器,之后鉴别器会判断传入的特征信息到来自源域还是目标域,并计算损失;鉴别器的目标是将输入的特征信息分类到正确的域,而特征提取器的目标是提取的特征不能被鉴别器正确的判断,形成一种对抗关系;同时,特征提取器提取的特征也会传入源域分类器中,因为源域样本带有标记,因此利用源域的带标记样本数据进行有监督训练从而保证分类的准确性;
领域对抗性神经网络DANN训练分为两个阶段,在第一阶段训练鉴别器D区分源域和目标域的特征数据,在第二阶段训练特征提取器来混淆鉴别器D;同时通过鉴别器D的损失函数来衡量源域目标域数据分布之间的差异;在无监督领域自适应中,领域对抗性神经网络DANN能够公式化为极大极小优化问题,最小化在源域分类器 上的分类误差 ,最大化源域和目标域在鉴别器D上的域鉴别误差 :其中 是交叉熵损失, , 表示 个标记实例的源
域样本和 个未标记的目标域样本, 代表源域分类器 生成的分类预测, 为平衡因子;
基于条件域对抗入侵检测模型,是基于条件对抗域网络的领域自适应模型,将源域的类别标签 和目标域在源域分类器 上的预测标签 加入到鉴别器D中作为类别条件,实现特征分布的对齐;条件域对抗网络CDAN通过最小化在源域分类器 上的分类误差、最大化源域和目标域在源域分类器 和鉴别器 上的域鉴别误差 来训练鉴别器和特征提取器,如公式(17)所示:其中, 是交叉熵损失, 和 分别表示源域和目标域的域不变特征, 表示目标域样本 在源域分类器 上的预测标签;
基于条件域对抗入侵检测模型,首先,特征提取器 对源域和目标域进行特征提取得到域不变特征,之后将类别信息加入到鉴别器 中并训练鉴别器区分源域和目标域特征,同时计算 和 数据分布之间的Copula距离和源域分类器 的损失,最后通过最小化源域分类器 损失和Copula距离、最大化鉴别器 损失反向训练特征提取器 ,最终使基于条件域对抗入侵检测模型拥有良好的跨域性能;最终总体基于条件域对抗入侵检测模型的损失函数如公式(18)所示: