利索能及
我要发布
收藏
专利号: 2024117553034
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种未知类别恶意流量检测方法,其特征在于,方法包括以下步骤:

获取流量数据,对流量数据进行预处理,将预处理后的流量数据进行特征提取,得到特征序列,将特征序列输入至预先建立的对比学习编码器内进行训练,得到训练后的对比学习编码器;

接收样本流量数据,将样本流量数据输入至训练好的对比学习编码器内,输出得到编码后的特征向量,将编码后的特征向量输入至预先建立的少样本学习模型内,得出样本类别原型,获取待检测流量样本的特征向量,将待检测流量样本的特征向量与样本类别原型进行相似度计算,根据相似度计算结果来判定流量数据是否为恶意流量;

所述将编码后的特征向量输入至预先建立的少样本学习模型的过程包括:

通过聚类选择最接近聚类中心的样本构建支持集,并随机抽取样本作为查询集:

对训练集数据进行K均值聚类,并从中选择距离聚类中心最近的若干样本作为代表样本,构成原型网络的支持集S,在每次训练迭代episode中,从剩余样本中随机抽取若干样本作为查询集,对于每个类别c,计算其对应的原型中心pc;原型中心的计算公式如下:其中,|Sc|为支持集中类别为c的样本的数量,xi为类别c的支持集Sc中样本的遍历,yi为样本xi对应的类别,fφ(xi)为样本xi提取的特征向量;

对于查询集中的每个样本x,需要计算其特征向量fφ(x)与类别c的原型中心pc之间的欧氏距离d(fφ(x),pc),距离计算公式如下:2

d(fφ(x),pc)=||fφ(x)‑pc||  (2)

将查询样本x分类为欧式距离最小的原型中心所在的类别y',c为遍历全部原型中心的类别,分类公式如下:若存在样本与所有类别原型中心的距离均大于预设阈值,则样本将被判定为属于新类别,并相应的更新原型中心;

所述将待检测流量样本的特征向量与样本类别原型进行相似度计算的公式如下:

其中p(y=c|x)为给定输入样本x,输出类别y为c类别的概率;exp()代表指数函;fφ(x)为样本x提取的特征向量,pc为类别c的原型中心,c'为所有类别的遍历,pc'为类别c'的原型中心,d(fφ(x),pc)是样本x的特征向量与原型中心pc之间的距离,d(fφ(x),pc')为样本x的特征向量与所有类别原型中心的距离;

所述查询集Q中每个样本x及其真实类别y,计算所有样本的交叉熵损失并取平均,得到损失函数L:|Q|为查询集中包含的所有流量样本的数量,x为查询集Q中的样本数据,y为样本x的真实类别,fφ(x)为提取的特征向量,py为类别y的原型中心,c'为所有类别的遍历,pc'为类别c'的原型中心,d(fφ(x),py)是样本x的特征向量与真实类别y的原型中心py之间的距离,d(fφ(x),pc')为样本x的特征向量与所有类别原型中心的距离。

2.根据权利要求1所述的一种未知类别恶意流量检测方法,其特征在于,所述对流量数据进行预处理包括对流量数据进行分割、清洗以及归一化。

3.根据权利要求1所述的一种未知类别恶意流量检测方法,其特征在于,所述将预处理后的流量数据进行特征提取的过程包括:采用深度神经网络自动提取高维特征,通过多层卷积网络或循环网络对流量进行建模,得到的特征向量包括时间维度上的流量行为模式以及包层面的微观特征。

4.根据权利要求1所述的一种未知类别恶意流量检测方法,其特征在于,所述将特征向量输入至预先建立的对比学习编码器时进行数据增强,数据增强的计算过程如下:给定网络流数据包序列flow=[p1,p2,…,pm],其中包含m个网络流数据包p,对网络流数据包中k个元素进行掩码遮盖操作,Mask被赋值为一个数组[mask1,mask2,…,maskm],数组中包含1至m个mask掩码,where表示其中第i个mask掩码包含k个随机位置为0的掩码,剩余(m‑k)个位置元素为1,保持原有数据不变,添加掩码公式定义为:Mask=[mask1,mask2,...,maskm]

添加掩码的操作flowmasked表示为:

flowmasked=flow*Mask (7)。

5.根据权利要求4所述的一种未知类别恶意流量检测方法,其特征在于,所述数据增强后,将原始样本的类别标签赋予增强样本,使得增强样本与同类别的样本构成正样本对,而与不同类别的样本构成负样本对;

利用对比损失函数对预先建立的对比学习编码器进行反向传播优化,对比损失函数Lcontrastive的定义如下:其中,i为锚点样本的序列号, 为第i个的锚点样本的对比损失,Lcontrastive为数量为i个的锚点样本的对比损失 的总值,zi作为锚点样本的特征,与同类别样本的特征zp构成正样本对,P(i)和A(i)分别代表锚点样本的正样本对集和全部样本对集,|p(i)|为正样本对集中样本的数量,样本P为正样本对集P(i)中每个样本的遍历,样本a为全部样本对集A(i)中样本的遍历;对比损失函数分母中的和是在全部样本对集中样本a的特征za与锚点样本同类别样本的特征zp上进行计算,分子则表示锚点样本的特征与其同类别样本的特征+zp之间的相似度;参数τ∈R为温度系数;exp()为指数函数。

6.一种未知类别恶意流量检测系统,采用了权利要求1至5中任一项所述的一种未知类别恶意流量检测方法,其特征在于,包括:对比学习模块,用于获取流量数据,对流量数据进行预处理,将预处理后的流量数据进行特征提取,得到特征序列,将特征序列输入至预先建立的对比学习编码器内进行训练,得到训练后的对比学习编码器;

恶意流量检测模块,用于接收样本流量数据,将样本流量数据输入至训练好的对比学习编码器内,输出得到编码后的特征向量,将编码后的特征向量输入至预先建立的少样本学习模型内,得出样本类别原型,获取待检测流量样本的特征向量,将待检测流量样本的特征向量与样本类别原型进行相似度计算,根据相似度计算结果来判定流量数据是否为恶意流量;

所述将编码后的特征向量输入至预先建立的少样本学习模型的过程包括:

通过聚类选择最接近聚类中心的样本构建支持集,并随机抽取样本作为查询集:

对训练集数据进行K均值聚类,并从中选择距离聚类中心最近的若干样本作为代表样本,构成原型网络的支持集S,在每次训练迭代episode中,从剩余样本中随机抽取若干样本作为查询集,对于每个类别c,计算其对应的原型中心pc;原型中心的计算公式如下:其中,|Sc|为支持集中类别为c的样本的数量,xi为类别c的支持集Sc中样本的遍历,yi为样本xi对应的类别,fφ(xi)为样本xi提取的特征向量;

对于查询集中的每个样本x,需要计算其特征向量fφ(x)与类别c的原型中心pc之间的欧氏距离d(fφ(x),pc),距离计算公式如下:2

d(fφ(x),pc)=||fφ(x)‑pc||  (10)

将查询样本x分类为欧式距离最小的原型中心所在的类别y',c为遍历全部原型中心的类别,分类公式如下:若存在样本与所有类别原型中心的距离均大于预设阈值,则样本将被判定为属于新类别,并相应的更新原型中心;

所述将待检测流量样本的特征向量与样本类别原型进行相似度计算的公式如下:

其中p(y=c|x)为给定输入样本x,输出类别y为c类别的概率;exp()代表指数函;fφ(x)'为样本x提取的特征向量,pc为类别c的原型中心,c 为所有类别的遍历,pc'为类别c'的原型中心,d(fφ(x),pc)是样本x的特征向量与原型中心pc之间的距离,d(fφ(x),pc')为样本x的特征向量与所有类别原型中心的距离;

所述查询集Q中每个样本x及其真实类别y,计算所有样本的交叉熵损失并取平均,得到损失函数L:|Q|为查询集中包含的所有流量样本的数量,x为查询集Q中的样本数据,y为样本x的真实类别,fφ(x)为提取的特征向量,py为类别y的原型中心,c'为所有类别的遍历,pc'为类别c'的原型中心,d(fφ(x),py)是样本x的特征向量与真实类别y的原型中心py之间的距离,d(fφ(x),pc')为样本x的特征向量与所有类别原型中心的距离。

7.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至5中任一项所述的一种未知类别恶意流量检测方法。