1.基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法包括如下步骤:
步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下,对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征;
步骤2:对业务流的统计特征进行分析,并进行特征筛选;
步骤3:获得统计特征作为表示业务流的特征向量,然后利用K近邻分类器(K表示分类器的未知参数)对未知业务流进行分类,得到分类结果。
2.根据权利要求1所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法的步骤1中包括:步骤1-1:通过网络数据包分析工具wireshark进行网页浏览和网络视频业务流的数据获取,然后对获取的数据进行格式处理,转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小;
步骤1-2:数据包采样不是一个必不可少的过程,由于网络中获取的数据量非常大,如果直接对如此庞大的数据进行特征计算,势必会造成巨大的计算资源耗费,此时对数据包进行采样处理以降低分类器的处理压力;
步骤1-3:数据包过滤是指对滤除不感兴趣并且不会对分类结果产生影响的数据包;步骤1-4:利用gawk和perl文本处理工具对标准五元组网络流数据进行处理获得网络业务流的统计特征,即下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差、数据包大小的三阶中心矩、下行字节速率统计特征。
3.根据权利要求1所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法的步骤2中包括:步骤2-1:对所有业务流的的统计特征值进行离散化操作,以降低在特征选择过程中的计算复杂度;
步骤2-2:计算每类业务的每个特征的变异系数IN_CVij,表示第i类业务的第j个特征的变异系数;其中,变异系数描述了一组数据相对于均值的标准偏差,是反映数据离散程度的统计量,变异系数可以反映数据的变化程度,变异系数越大,说明该组数据分布越分散;反之,则分布越集中,它能对数据集中不同类型的数据进行比较,因为它与数据的量纲无关;
步骤2-3:计算每类业务每个特征的均值Mij,然后利用Mij计算所有业务之间的变异系数OUT_CVj,表示所有业务之间的第j个特征的变异系数;
步骤2-4:定义重要程度系数,并计算重要程度系数 其中CIij代表第i类业务的第j个特征的重要程度系数,OUT_CVj代表业务之间的变异系数,IN_CVij代表业务内部的变异系数;
步骤2-5:对于固定的每个特征j,计算所有业务的重要程度系数的均值CIj=MEAN(CIij),其中MEAN代表求均值,CIj代表第j个特征的重要程度系数,CIij代表第i类业务的第j个特征的重要程度系数;
步骤2-6:对CIj进行排序,得到特征对于该数据集的重要程度顺序;
步骤2-7采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征。
4.根据权利要求3所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述QoS统计特征包括:
1)平均下行字节速率;
属于HTTP下载的http_dload的平均下行字节速率最高,对于cbox_sopcast和youku_iqiyi来说,二者都属于网络在线视频,二者的平均下行字节速率仅次于http_dload的平均下行字节速率,对于sina_NG和csdn_times来说,二者属于都网页浏览,对网络资源占用率再次之,最后,Skype属于网络语音会话,对于网络资源的带宽需求最小,
2)数据包大小均值;
数据包大小均值是用来反映业务数据包的整体情况,http_dload和youku_iqiyi的平均数据包大小最大,由于http_dload是HTTP下载业务,所以在带宽充足的情况下它会尽可能地利用带宽,而youku_iqiyi属于非直播的在线视频观看,youku_iqiyi的平均数据包大小相对于http_dload略小一点,虽然sina_NG和csdn_times都属于网页浏览业务,但是前者的平均数据包大小会大于后者,cbox_sopcast属于视频直播,由于视频直播要满足实时性的要求,所以整体上的平均数据包大小基本在500至1000字节之间,而Skype的平均数据包大小最小;
3)下上行分组数之比;
youku_iqiyi的下上行分组数之比大约为2,而cbox_sopcast的下上行分组数之比小于等于1,由于cbox_sopcast属于直播类型的视频业务,所以客户端和服务器的数据交互明显会多于属于视频观看(非直播)业务的youku_iqiyi,sina_NG的下上行分组数之比大于1,而csdn_times的下上行分组数之比大约为1,Skype的下上行分组数之比基本维持在1左右,因为Skype属于交互式音频,所以上下行分组数基本是相等的;
4)数据包间隔时间均值;
数据包到达间隔时间均值也是网络流的基本特征属性,http_dload和cbox_sopcast的平均包到达间隔时间最小,而对属于视频直播类型的cbox_sopcast来说,由于视频直播必须满足实时性的要求,所以具有较小数据包到达间隔时间,而对于Skype语音来说,不同时间段获取的数据流的平均包到达时间间隔基本一致,都保持在0.02秒左右,虽然youku_iqiyi和sina_NG属于不同类型的业务,但是二者在数据包平均间隔时间上比较相似,因为二者业务中都含有视频,csdn_times属于只含有图片和文字的网页浏览,不同时间段获取的数据在平均数据包间隔时间波动比较大。
5.根据权利要求1所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法的步骤3中包括:步骤3-1:对已知流的QoS统计特征进行特征提取,然后用带标签的特征向量表示已知流,并使用特征向量对K近邻分类器进行训练;
步骤3-2:获取未知流的统计特征向量,并作为分类器的输入,对未知流进行分类识别。