1.一种基于大数据的网络行为分析方法,其特征在于,流程如下:步骤一、获取用户行为数据,识别用户,根据用户访问生成有用轨迹段;用户数据包括用户身份、访问日期、访问路径、访问内容、请求结果和浏览时间;
步骤二、将有用轨迹段分割为不同区域后,进行频繁序列挖掘,输出用户频繁行为序列及其支持度,将频繁行为序列作为用户特征,并赋予权重;
步骤三、区分用户的异常行为与正常行为,将得到的异常行为数据抽象成标签;
步骤四、构建用户画像模型;
步骤五、建立异常行为模式特征库,将待测用户行为序列与异常行为模式特征库进行匹配,判断是否为异常用户;
步骤六、对异常用户进行异常行为特征提取,将提取用户异常行为的精度进行量化,完成对异常用户的异常行为特征的分析;
所述步骤一具体如下:
通过web服务器产生的日志文件获取用户行为数据;
将用户行为数据进行用户识别,过程如下:
当IP地址不同时,代表多个不同用户;
当IP地址相同,并且用户使用的操作系统和浏览器相同时,代表同一用户;
当IP地址相同,但用户使用的操作系统和浏览器不同时,代表多个不同用户;
当用户请求访问的某个页面与之前访问的任一页面均不相关时,代表出现一个新用户;
当用户请求访问的某个页面之前从未访问过,且在日志记录中未有引用痕迹时,代表出现一个新用户;
将用户的访问分解成轨迹段,用以下形式表示:
R=;
其中,R表示用户在一段时间内请求的页面的集合序列;U表示用户标识;P表示用户请求的页面的标识符;T表示时间;
设置用户相邻请求之间的超时时间阈值为θ,判断是否满足Ti‑Ti‑1≤Q…1≤i<
所述步骤二具体如下:
对有用轨迹段按照时间顺序进行排序,获得用户行为数据序列Y,并构建用户行为序列数据库,用户每个行为节点在序列中都有其对应的位置,用户行为序列表示一个用户在某时间戳内的操作;
用户行为数据序列Y=(y1,y2,y3,y4,...,ym),其中,m为正整数,对序列中的每个行为xm创建一个其对应的点,并添加对应的行为标识符、时间戳和页面ID,使用时间戳对创建的点进行排序,获得用户行为数据序列点集合X=(x1,x2,x3,x4,...,xm),其中,m为正整数;
将空间内任意一点xm作为圆心,设置半径为r,形成圆形区域,将此圆形区域内的所有点的集合标记为邻域Br(xm),Br(xm)={xn∈D│dist(xm,xn)≤r};
其中,dist(xm,xn)表示xm和xn之间的距离;
将邻域内样本个数的最小值标记为MinPts;
从数据集X中随机挑选一个点xm,判断|Br(xm)|是否大于等于MinPts,当|Br(xm)|≥MinPts,则判定xm为核心对象,加入核心集合Y中;
从核心集合Y中随机挑选一个核心对象xn,将其密度可达的所有点,加入新的集合C1,形成第一个聚类簇;
继续访问数据集X中的下一个点,重复上述步骤,直到处理完数据集中的所有点,得到聚类簇Cm,将没有包含在聚类簇中的点标记为噪音,予以删除;
聚类簇Cm包括用户基本属性、职位属性、业务属性、时间属性和空间属性;其中,基本属性包括用户ID和IP地址;职位属性包括用户具有的职位级别;业务属性是用户所具有的业务功能;时间属性是用户访问在时间上的分段;空间属性是用户访问在区域上的分段;
利用Apriori算法对区域分割处理后的数据进行频繁行为序列挖掘处理,输出用户行为序列及其支持度;设置支持度阈值为ρ,剔除低于支持度阈值ρ的行为序列,保留高于支持度阈值ρ的行为序列及其支持度,并将其标记为频繁行为序列;
将频繁行为序列作为用户特征,每个用户特征代表一个特定的用户行为模式,包括多个用户行为步骤;为每个用户特征赋予权重。
2.根据权利要求1所述的一种基于大数据的网络行为分析方法,其特征在于,所述步骤三具体如下:建立正常行为模型,捕捉用户的正常行为模式;
设定异常行为的检测阈值,包括操作频率的上下限、访问时长的异常范围,将偏离检查阈值的行为划分为异常行为;
对异常行为进行标签化处理。
3.根据权利要求1所述的一种基于大数据的网络行为分析方法,其特征在于,所述步骤五具体如下:利用建立好的用户画像提取出用户的异常行为模式特征,并构建异常行为模式特征库,其中,行为模式特征包括行为频率、行为顺序和行为时间间隔;
将待测用户行为序列与异常行为模式特征库进行匹配,通过匹配是否成功来判断是否为异常用户,并据此提取用户行为数据异常特征,具体过程如下:利用TF‑IDF将待测用户行为序列转化为特征向量A=[a1,a2,a3,...,ai],将异常行为模式特征库中异常特征序列转化为特征向量B=[b1,b2,b3,...,bj];
通过动态时间规整DTW计算向量A与向量B之间的距离,将向量B作为基准序列B,向量A作为对比序列A,通过公式计算出距离,公式如下:D(i,j)=d(i,j)+min[D(i‑1,j),D(i,j‑1),D(i‑1,j‑1)];
d(i,j)=1‑cos(ai,bj);
其中,d(i,j)为ai与bj之间的余弦距离;D(i,j)为对比序列A前i个坐标与基准序列B前j个坐标的距离之和;当D(i,j)值小于预设阈值时,表示向量A与向量B之间距离越小,待测用户行为序列与异常行为模式特征库中异常特征序列越相似;当D(i,j)值大于设置的用户行为非正常阈值时,表示向量A与向量B之间距离越大,判定待测用户行为序列为异常序列,将待测用户标记为异常用户,完成对异常用户的识别。
4.根据权利要求1所述的一种基于大数据的网络行为分析方法,其特征在于,所述步骤六具体如下:量化公式具体如下:
其中,a表示检测得到的异常特征量;A表示数据中异常特征总量;
当F的值大于等于设定的精度阈值范围最大值δ1时,判定提取用户行为数据异常特征的精度为一级;
当F的值小于精度阈值范围最大值δ1且大于等于精度阈值范围最小值δ2时,判定提取用户行为数据异常特征的精度为二级;
当F的值小于设定的精度阈值范围最小值δ2时,判定提取用户行为数据异常特征的精度为三级。
5.根据权利要求1所述的一种基于大数据的网络行为分析方法,其特征在于,所述密度可达定义如下:若xn在xm的邻域内,且xm是核心对象,则xn由xm密度直达,若存在a1,a2,...,an,其中a1=xm,an=xn,且ai+1由ai密度直达,则xn由xm密度可达。
6.根据权利要求1所述的一种基于大数据的网络行为分析方法,其特征在于,所述支持度定义如下:某个用户行为序列在数据集中出现的频率。
7.根据权利要求1所述的一种基于大数据的网络行为分析方法,其特征在于,所述对异常行为进行标签化处理中,标签数目大于等于1。