利索能及
我要发布
收藏
专利号: 2023110166426
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于四元数卷积神经网络的加密流量识别方法,其特征在于,包括以下步骤:采集数据,得到流量数据集;

对数据进行预处理,包括对流量进行切分、去除不相关数据、数据包统一化处理;

提取每条流中指定数量数据包的负载长度、到达时间间隔、方向和传输协议四个特征并对特征进行归一化;

在四元数空间中嵌入归一化后的数据,将特征表示成四元数矩阵形式;

将所述四元数矩阵作为输入数据,送入四元数卷积神经网络模型,获得加密流量识别结果,所述四元数卷积神经网络模型中的卷积操作定义为:,

其中W=r+xi+yj+zk为四元数权值滤波矩阵,Xp=R+Xi+Yj+Zk为四元数输入向量,R、X、Y、Z是输入的四个特征,即数据包负载长度、到达间隔时间、方向和传输协议特征,r、x、y、z为四个特征对应滤波器的卷积核大小,i,j,k是四元数的虚数单位基, 表示卷积运算。

2.根据权利要求1所述的方法,其特征在于,所述流量切分包括:利用流量切分工具,根据流量的五元组信息将原始流量切割为多个独立的单元,所述五元组包括数据包的源IP地址、源端口号、目的IP地址、目的端口号、传输层协议;

所述去除不相关数据包括:去除用于TCP连接建立和断开的数据包、用于域名解析的数据包以及有效载荷为空的数据包;

所述数据统一化包括:对流量进行数据截断或填充处理,以使任一流量的数据包数量一致。

3.根据权利要求2所述的方法,其特征在于,根据流量的五元组信息将原始流量切割为多个独立的单元包括:按照五元组信息将从源IP到目的IP、从源端口到目的端口方向相同以及相反的数据包提取出来,按照时间顺序排列。

4.根据权利要求1所述的方法,其特征在于,提取每条流中指定数量数据包的负载长度、到达时间间隔、方向和传输协议四个特征包括:获取每个数据包的负载长度,将大于或等于1500字节的数据包负载长度特征值设置为

1,将小于1500字节的数据包负载长度特征值设置为数据包负载长度除以1500的小数值;

获取每个数据包的到达时间间隔,将到达时间间隔大于或等于1秒的数据包的到达间隔时间特征值设置为1,将到达时间间隔小于1秒的数据包的到达间隔时间特征值设置为以秒计的到达时间间隔;

获取每个数据包的方向,将与第一个数据包方向相同的数据包的方向特征值设置为0,否则为1;

获取每个数据包的传输协议,将传输协议为UDP的数据包传输协议特征值设置为0,将传输协议为TCP的数据包传输协议特征值设置为1。

5.根据权利要求1所述的方法,其特征在于,在四元数空间中嵌入归一化后的数据,将特征表示成四元数矩阵形式包括:根据标准四元数表示方式将每一个数据包对应的特征表示为 ,转换为向量的形式 ,将数据包的四元数表示排列成一个矩阵,构成一个四元数矩阵。

6.根据权利要求1所述的方法,其特征在于,所述四元数卷积神经网络模型包括三个四元数卷积层、三个ReLU层、三个批标准化层和和一个全连接层,四元数卷积层的卷积过程的矩阵形式为:,

R'、X'、Y'、Z'代表了经过卷积后新生成的特征向量。

7.根据权利要求1所述的方法,其特征在于,所述四元数卷积神经网络模型是经过训练得到的,训练过程包括:将数据包的负载长度、到达间隔时间、方向和传输协议组成的四元数矩阵及对应的真实标签值划分为训练集、验证集和测试集,利用训练集训练所述四元数卷积神经网络模型,通过参数寻优,得到最优参数,确定模型参数;利用验证集验证四元数卷积神经网络模型的性能;利用测试集测试四元数卷积神经网络模型。

8.一种基于四元数卷积神经网络的加密流量识别装置,其特征在于,包括:数据采集模块,用于采集数据,得到流量数据集;

数据预处理模块,用于对数据进行预处理,包括对流量进行切分、去除不相关数据、数据包统一化处理;

特征提取模块,用于提取每条流中指定数量数据包的负载长度、到达时间间隔、方向和传输协议四个特征并对特征进行归一化;

四元数表示模块,用于在四元数空间中嵌入归一化后的数据,将特征表示成四元数矩阵形式;

四元数卷积神经网络识别模块,用于将所述四元数矩阵作为输入数据,送入四元数卷积神经网络模型,获得加密流量识别结果,所述四元数卷积神经网络模型中的卷积操作定义为:,

其中W=r+xi+yj+zk为四元数权值滤波矩阵,Xp=R+Xi+Yj+Zk为四元数输入向量,R、X、Y、Z是输入的四个特征,即数据包负载长度、到达间隔时间、方向和传输协议特征,r、x、y、z为四个特征对应滤波器的卷积核大小,i,j,k是四元数的虚数单位基, 表示卷积运算。

9.一种计算机设备,其特征在于,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1‑7中任一项所述的基于四元数卷积神经网络的加密流量识别方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的基于四元数卷积神经网络的加密流量识别方法的步骤。