1.一种基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述方法包括以下步骤:采集原始网络流量,并进行流量初筛,剔除非Tor流量;
对初筛后的流量进行重构,将流量转化为灰度特征图,包括:原始字节特征重构:取标准字节为L,对少于L个字节的数据包进行补零操作,超过L个字节的数据包进行截断处理,归一化之后生成i*i的包字节矩阵从而转化为灰度图像;以及,上下行交互行为特征重构:根据数据包大小、方向与时间间隔构造横纵坐标,每个时间间隔内的数据包数量作为像素点灰度值,形成模拟上下行交互行为的特征图;
以数据包为单位,将相对应的上下行交互行为特征图输入到卷积神经网络提取得到交互信息特征向量,将原始字节特征图输入到卷积神经网络提取得到包空间特征向量,将一组包空间特征向量输入循环神经网络提取得到流时序特征向量,并将三种特征向量进行融合;
将融合特征输入多分类器进行应用分类,所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数;
基于多数原则确定流量的归属应用。
2.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述采集原始网络流量,并进行流量初筛包括:利用网络流量采集工具抓取原始流量,按照五元组形式对原始流量进行划分;
利用特征提取工具对划分好的网络流进行特征提取,对特征进行直方图等深离散化处理,输入到极限梯度提升决策树中,通过由损失函数与正则化惩罚项组成的目标函数对每个特征的取值依次遍历计算,找到最小化目标函数的特征点,从而过滤掉非Tor流量。
3.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,根据数据包大小、方向与时间间隔构造横纵坐标包括:以数据包大小作为横坐标,找出流样本中数据包最大值与最小值,作为横坐标的起始与结束位置,将所有数据包的大小归一化到整个横坐标中,纵坐标等分为两部分,分别为上行包与下行包的到达时间,横纵坐标交叉像素点的深度代表数据包数量。
4.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述卷积神经网络结构为输入层‑卷积层CONV1‑池化层POOL1‑卷积层CONV2‑池化层POOL2‑卷积层CONV3‑全连接层FC1‑全连接层FC2;
所述交互信息特征向量根据以下方法得到:将上下行交互行为特征图输入到卷积神经网络中,由前两个卷积层与池化层运算提取空间特征图,经卷积层CONV3的Flatten函数将特征图转为一维向量从而输入全连接层,从全连接层FC2中提取出1*s的一维特征向量Vs,s为全连接层FC2的神经元数目;
所述包空间特征向量根据以下方法得到:将包原始字节处理后转为的灰度图像输入到卷积神经网络模型中训练,由前两个卷积层与池化层运算提取空间特征图,经卷积层CONV3的Flatten函数将特征图转为一维向量从而输入全连接层,从全连接层FC2中提取出1*n的一维特征向量Vn,n=s。
5.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述循环神经网络模型的结构为BiGRU层BiGRU1‑BiGRU层BiGRU2‑全连接层FC4;
所述流时序特征向量根据以下方法得到:将分组数据包的灰度图像批量输入到循环神经网络模型中训练,由BiGRU层进行运算得到时序特征图,经Flatten函数转为一维向量输入全连接层,从全连接层FC4中提取出1*m的一维特征向量,m为全连接层FC4的神经元数目。
6.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,将三种特征向量进行融合包括:以数据包为单位进行特征融合,将维度1*s 的上下行交互行为特征向量、1*n的空间特征向量与1*m的时序特征向量分别利用一个全连接层转化为维度更低的一维特征向量,再将三个维度更低的一维特征向量进行融合得到融合特征。
7.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述多分类器采用一维卷积神经网络,包括卷积层‑池化层‑Flatten层‑全连接层‑Softmax层,对流量前N个数据包中每一个包的融合特征都进行应用分类;
所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数包括:保留预训练分类器时学习到的部分特征参数,同时学习新流量类别样本,使用继承损失函数计算分类器学习前后的参数差异,结合新流量类别样本损失函数共同更新分类器参数,并利用保留系数确定参数学习程度,在最后全连接层使用线性映射平衡不同类别的分类偏好。
8.一种基于流量重构与继承学习的匿名网络流量识别装置,其特征在于,包括:
数据采集与过滤模块,采集原始网络流量,并进行流量初筛,剔除非Tor流量;
流量重构模块,对初筛后的流量进行重构,将流量转化为灰度特征图,包括:原始字节特征重构单元:取标准字节为L,对少于L个字节的数据包进行补零操作,超过L个字节的数据包进行截断处理,归一化之后生成i*i的包字节矩阵从而转化为灰度图像;以及,上下行交互行为特征重构单元:根据数据包大小、方向与时间间隔构造横纵坐标,每个时间间隔内的数据包数量作为像素点灰度值,形成模拟上下行交互行为的特征图;
特征提取与融合模块,以数据包为单位,将相对应的上下行交互行为特征图输入到卷积神经网络提取得到交互信息特征向量,将原始字节特征图输入到卷积神经网络提取得到包空间特征向量,将一组包空间特征向量输入循环神经网络提取得到流时序特征向量,并将三种特征向量进行融合;
应用分类模块,将融合特征输入多分类器进行应用分类,所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数;
类别判定模块,基于多数原则确定流量的归属应用。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1‑7中任一项所述的基于流量重构与继承学习的匿名网络流量识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的基于流量重构与继承学习的匿名网络流量识别方法的步骤。