利索能及
我要发布
收藏
专利号: 2020107339799
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向类别不平衡下的加密流量识别方法,其特征在于,包括以下步骤:S1、获取数据集:捕获网络数据流量,生成会话,通过五元组对网络数据流量过滤分流并获取原始实验数据集;

S2、平衡数据集:采用基于密度估计的改进SMOTE算法,对原始实验数据集进行处理;具体为:采用SN‑SMOTE算法的邻域计算策略,为少数类样本分配不同的邻域参数;包括以下步骤:S21、分离原始实验数据集中的多数类和少数类的样本,分别在多数类和少数类样本上训练GMM模型,得到类内样本概率密度的信息;

S22、对少数类中的样本按照概率密度从大到小的顺序进行排列,并按照排序选取排在前面的类内样本个数*β1个样本,β1为比例参数,这部分样本则记为安全样本;

S23、将少数类中除安全样本外剩余的样本放在多数类的GMM模型中,计算得到剩余的样本在异类分布中的概率密度,并将概率密度按照从大到小的顺序进行排序;

S24、按照排序选取排在前面的类内样本个数*β2个样本,β2为比例参数,记为边界样本,剩下部分的样本则标记为离群样本;

S25、随机选取少数类中的一个样本作为主样本,并选取与其样本类型相对应的邻域参数进行计算,合成新样本,重复此过程直到数据集平衡;

S3、数据预处理:读取平衡数据集后的数据流,截断数据,并进行归一化处理;

S4、最优化特征集:通过变分自动编码器模型自动提取特征,以及提取网络流量识别领域常用的流级特征,并利用基于树模型的特征选择法从上述两种特征中得到对识别贡献度最大的特征集作为最优化特征集;所述利用基于树模型的特征选择法从上述两种特征中得到对识别贡献度最大的特征集作为最优化特征集具体包括以下步骤:S41、使用树模型中的GBDT作为基模型进行特征选择;

S42、使用feature_selection库的SelectFromModel类结合GBDT模型,训练基模型;

S43、选择权值系数较高的特征得到最优化特征集;

S5、识别流量:将最优化特征集输入到结合遗传算法的随机森林CGA‑RF分类器算法,识别目的加密流量;所述CGA‑RF分类器算法具体为:S51、用训练集构建决策树,组成原始的决策树集合;

S52、从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;

S53、利用遗传算法重复步骤S52,直到得到最优的随机森林模型;

S6、对获得的指标结果分析,并选取参数,优化加密流量识别方法。

2.根据权利要求1所述的面向类别不平衡下的加密流量识别方法,其特征在于,步骤S1包括:定义TCP流为以握手协议中的SYN标志位开始,并且以FIN标志位或以RST标志位结尾的TCP双向流。

3.根据权利要求1所述的面向类别不平衡下的加密流量识别方法,其特征在于,步骤S1包括:定义UDP流为以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则认为数据流结束,新数据流的开始。

4.根据权利要求1所述的面向类别不平衡下的加密流量识别方法,其特征在于,步骤S3具体包括以下步骤:S31、读取平衡数据集后的数据流,判断数据流长度是否大于n个字节;

S32、若数据流长度大于等于n个字节,进行去除数据链路层和对UDP头部填充0;

S33、若长度小于n个字节,则进行对数据包填充0;

S34、对提取的数据进行归一化处理。