1.一种基于随机投影角度分布的数据流异常识别方法,其特征在于,用于数据流异常点检测,包括步骤:步骤(1)、实时采集数据流中的数据,获取初始滑动窗口大小的初始数据集样本X,对数据集样本X进行预处理;
步骤(2)、取随机向量i1,-it∈Id,构建随机投影矩阵,其中随机向量的坐标服从标准正态分布N(0,1),将数据集投影到与随机向量正交的超平面上,投影后的数据集为X*;
步骤(3)、结合随机投影方法和角度方法计算X*中的每一个数据进行分析,获取每一个数据的异常因子值;
步骤(4)、根据当前窗口的数据集中元素的异常因子值分析当前数据集的分布情况,计算窗口数据集的密集度G,根据密集度G大小适当调整滑动窗口的大小;
步骤(5)、更新数据集X和滑动窗口大小,输出异常点,返回上述步骤,继续对异常点检测。
2.根据权利要求1所述一种基于随机投影角度分布的数据异常识别方法,其特征在于:所述步骤(1)中实时采集数据流中的数据获取初始滑动窗口大小数据,并把数据依次存储到数据集X中,当数据集X存满时开始对数据元素进行预处理,为避免数据因不规范对算法的影响,预处理包括中位数标准化处理、归一化处理。
3.根据权利要求1所述一种基于随机投影角度分布的数据异常识别方法,其特征在于:所述步骤(2)中选取投影向量对数据集进行投影,首先选取取随机向量i1,-it∈Id构建随机投影矩阵,其中各向量坐标服从标准正态分布N(0,1)中独立选取;再将数据集X投影到与随机向量Id正交的超平面上,得到数据集X*。
4.根据权利要求1所述一种基于随机投影角度分布的数据异常识别方法,其特征在于:所述步骤(3)根据投影之后的数据分区,运用基于角度分布的异常点检测方法近似计算分析数据集X*中的每一个元素的角度异常因子值F,如果异常因子值大于设定的阈值T,则判定为异常点,反之则为正常点。
5.根据权利要求1所述一种基于随机投影角度分布的数据异常识别方法,其特征在于:所述步骤(4)分析当前窗口数据集的异常度分析数据集的分布情况来改变滑动窗口的大小,数据密集度G根据当前时刻窗口数据集的异常度和上一历史时刻窗口数据集的异常度计算;若当前时刻的密集G大于所设的参数L1时,则数据集分布较密集,减少当前窗口内的m个数据集;若G小于所设定的参数L2,则数据集分布较稀疏,将历史窗口中最新的m个数据加入当前窗口内的数据集。
6.根据权利要求1所述一种基于随机投影角度分布的数据异常识别方法,其特征在于:所述步骤(5)更新数据集和滑动窗口大小,输出异常点,重复上述步骤实现实时对数据流异常点检测。