利索能及
我要发布
收藏
专利号: 2020101437872
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于集成学习的加密流量识别方法,其特征在于,包括以下步骤:(1)数据集采集:抓取网络流量,生成会话,通过五元组对流量过滤分流获取原始实验数据集;

(2)数据预处理:读取数据流,截断数据,并进行归一化处理;

(3)平衡数据集:采用SMOTE算法,以一定概率选用样本点周围的点,对不平衡数据集进行处理;

(4)自动提取特征:利用堆栈式自动编码器模型自动提取特征;

(5)识别流量:将自动提取的特征输入集成学习算法识别目的加密流量。

2.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(1)具体为:其中对于TCP流,从发起连接的三次握手的SYN包开始,到断开连接的FIN包或RST包为结束;对于UDP流,以第一个数据包的到达为开始,如果两个数据包到达的时间间隔超过60s,则认为数据流结束。

3.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(2)具体为:(21)读取数据流,判断数据流长度是否大于n个字节;

(22)若长度大于等于n个字节,进行去除数据链路层和UDP头部填充0的操作;

(23)若长度小于n个字节进行数据包填充0的操作;

(24)对提取的数据进行归一化处理。

4.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(3)选点原则为欧式距离越近,选用概率值越大,欧式距离越远则概率值越小,呈指数下降趋势。

5.根据权利要求4所述的基于集成学习的加密流量识别方法,其特征在于,步骤(3)具体包括以下步骤:(31)设训练集的少数类的样本数为T,目标合成少数类到NT个新样本,N为正整数,少数类的一个样本的特征向量为Xi,i∈{1,...,T};

(32)在少数类的全部T个样本中用欧氏距离找到样本Xi的k个近邻,记为xi(near),near∈{1,...,k};

(33)这xi(near)中选择概率值最大的一个样本xi(nn),再生成一个0到1之间的随机数ζ1,从而合成一个新样本Xi1,其中Xi1=Xi+ζ1*(Xi(nn)-Xi);

(34)将步骤(33)重复进行N次,从而可以合成N个新样本:Xinew,new∈1,...,N;

(35)对全部的T个少数类样本进行步骤(32)~(34)操作,完成为少数类合成NT个新样本。

6.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(4)具体包括以下步骤:(41)给定初始输入X,采用无监督方式训练第一层自动编码器V,输出为Y,设定输入X和输出Y的损失函数,即重构误差,并获得最小化重构误差;

(42)将第一层自动编码器隐含层的输出Y作为第二个自动编码器的输入,采用以上同样的方法训练自动编码器Z;

(43)重复(42)直到初始化完成所有自动编码器;

(44)将最后一个堆栈式自动编码器的隐含层输出作为分类器的输入,然后采用有监督的方法训练分类器的参数。

7.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(5)采用基于遗传算法改进的随机森林CGA-RF分类器进行分类。

8.根据权利要求7所述的基于集成学习的加密流量识别方法,其特征在于,所述CGA-RF分类步骤包括:(51)用训练集构建一定数量的决策树,组成原始的决策树集合;

(52)然后根据选择性集成的思路,从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;

(53)最后利用遗传算法迭代多次得到最优的随机森林模型。