1.基于Spark与隔离森林的并行网络流量异常检测方法,其特征是,包括步骤如下:步骤1、构建隔离森林异常检测模型,其具体步骤为:步骤11、将训练样本数据集D形成初始化弹性分布式数据集并划分对应的RDD分区,再由集群上的master主节点将RDD分区任务分配到各个worker节点上执行;
步骤12、对训练样本数据集D进行随机采样,并将采样得到的训练样本数据作为构建孤立树的样本集d;
步骤13、根据样本集d,Spark平台将构建多棵孤立树的作业切分为多个建树任务,并由集群上的master主节点将建树任务分配到集群的各个节点上执行,此时每个节点将并行执行建树任务,从而实现了孤立树的并行构建;
步骤14、孤立树的并行构建完毕后,收集并合并孤立树集合得到隔离森林网络流量异常检测模型;
步骤15、将得到的隔离森林网络流量异常检测模型存入到Hadoop分布式文件系统中;
步骤2、基于Spark并行计算框架实现异常评价的批量处理,其具体步骤为:步骤21、将实时采集的网络流量数据构建测试数据集D′,并初始化测试数据集D′;
步骤22、将测试数据集D′形成初始化弹性分布式数据集并划分对应的RDD分区,再由集群上的master主节点将RDD分区任务分配到各个worker节点上执行;
对于单个RDD分区任务,从该RDD分区中逐条读取网络流量数据,令该网络流量数据遍历步骤1所得到的隔离森林网络流量异常检测模型,以计算出该条网络流量数据的平均路径长度和异常得分,从而实现对该条网络流量数据的异常评价;
步骤23、执行完对测试数据集D′中所有网络数据的异常评价后,将得到的数据的异常评价结构进行统计并输出。
2.根据权利要求1所述的基于Spark与隔离森林的并行网络流量异常检测方法,其特征是,步骤12中通过子采样算法对训练样本数据集D进行随机采样。