利索能及
我要发布
收藏
专利号: 2022110669312
申请人: 深圳信息职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图神经网络的包粒度网络流量分类方法,其特征在于,包括如下步骤:S1、数据包图构建:将数据包内的字节作为节点,字节与字节间的相关信息作为边,来将数据包转换为一个无向图,得到数据包图;

S2、表征学习:利用两层图卷积网络学习所述数据包图中每个节点的表征,并将这些节点的表征进行聚合,得到所述数据包图的表征;

S3、分类:将所述数据包图的表征送入分类层,输出网络流量分类结果。

2.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,在步骤S1之前,还包括对数据包进行预处理的步骤S01~S04:S01、只保留有效载荷的数据包;

S02、去掉数据包的以太网报头和剩余的IP、传输报头和上层的有效载荷;

S03、对于大于110字节的报文,保留前110字节,丢弃其余的字节;

S04、匿名化源IP地址和目的IP地址以及端口。

3.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,在步骤S1中,用点互信息来表征字节与字节间的相关信息。

4.如权利要求3所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤S1中,通过求解数据包内任意两个字节之间的点互信息,来在点互信息为正值的节点之间构建边。

5.如权利要求4所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,数据包内的任意两个字节a与b之间的点互信息PMI(a,b)采用如下方式计算:其中,#W为数据包字节序列中滑动窗口的总数,#W(a)是包含字节a的窗口数,#W(b)是包含字节b的窗口数,#W(a,b)是字节a与b同时出现的窗口数。

6.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤S2中,利用两层图卷积网络学习所述数据包图中每个节点的表征,节点表征的更新公式为:其中,矩阵 是新学习到的节点表征;矩阵 其中D为数据包图的邻n×256

接矩阵, 为数据包图的度矩阵;矩阵H∈R 表示字节节点的初始表征;

(0) (1)

均为参数矩阵;k1和k2分别是W 和W 的列维度;n为节点个数;R为实数。

7.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤S2中,采用均值法、注意力机制法或长短期记忆网络法来对所述数据包图中所有节点的表征进行聚合。

8.如权利要求7所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤S2中:

1)采用均值法对所述数据包图中所有节点的表征进行聚合的公式如下:其中,g为聚合得到的数据包图的表征; 为第i个节点的表征;

2)采用注意力机制法对所述数据包图中所有节点的表征进行聚合的过程为:首先求解注意力权重向量β,再进行聚合得到数据包图的表征g:

1×d

其中, Ws2∈R 为两个可训练的参数矩阵,d为Ws1的行数; 为 的转置;

βi表示第i个节点的权重;

3)采用长短期记忆网络法对所述数据包图中所有节点的表征进行聚合的过程包括:为了捕获字节序列中每个字节的绝对位置和相对位置信息,采用基于“绝对位置编码”和长短期记忆网络的聚合策略进行聚合;其中,对于绝对位置信息,存储在位置向量q中,用qpos表示具体位置pos的位置向量,其计算方法如下:其中, 表示位置向量qpos的第2i个元素的值,k2为新学习到的节点的表征的维度;此处将位置向量q的维度也同样设置为k2,从而使得位置向量q和节点的表征能够进行相加;

为了捕获相对位置信息,按照原来数据包内字节的顺序将节点送入到双向LSTM编码器中:其中, 为双向LSTM编码器的两个输出, 为第i个输入节点的位置向量;

将双向LSTM编码器的两个输出进行合并,聚合得到最终数据包图的表征:值得注意的是,均值法和注意力机制法进行聚合得到的数据包图的表征g的维数为k2,而长短期记忆网络法聚合得到的数据包图的表征g的维数为2p,p为双向LSTM编码器的输出向量o的维度。

9.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,在得到数据包图的表征g以后,在步骤S3中,通过一个线性分类层来对其进行分类:z=Wzg+bz

c

其中,z∈R是分类层最终输出的分类向量,c为类别数目;Wz和bz都为可训练的参数。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时能实现如权利要求1‑9任一项所述的基于图神经网络的包粒度网络流量分类方法。