1.一种基于大数据的网络信息安全管理方法,其特征在于,包括如下步骤:S1、获取企业用户登录企业网站的企业大数据,所述企业大数据包括企业不同岗位员工登录企业网站的网页地址、网站拓扑图和网站内容,并将企业大数据根据员工岗位进行分类;
S2、根据企业大数据计算同一岗位员工网页浏览记录所对应网站拓扑图区域的中心节点,并根据中心节点与网页浏览记录中各节点的距离确定若干个距离最小的节点为职能区域;
在步骤S2中,具体包括如下步骤:
S21、根据企业大数据获取同一岗位员工的浏览记录,并获取同一岗位员工在不同网页的浏览次数;
S22、根据网站拓扑图和浏览次数计算该岗位员工浏览记录的中心节点;中心节点满足下列关系式:上式中, 表示中心节点到网站拓扑图中与该岗位员工网页浏览记录所对应节点的距离之和, 该岗位员工相对应的中心节点 到网站拓扑图中任一节点 的距离,该距离指的是从节点 到任一节点 所要点击的最少的链接次数, 表示与节点 浏览次数 负相关的权重函数,随着节点 的浏览次数的增大, 越小;
S23、获取中心节点到浏览记录所对应的网站拓扑图中各节点的距离;
S24、根据网站拓扑图筛选出与中心节点距离最小的若干个节点,以建立职能区域;
S3、获取用户请求信息所对应网页在网站拓扑图的第一节点位置,并判断第一节点位置是否位于职能区域内;
若是,则结束;
若否,则进入步骤S4;
S4、计算职能区域内的网页文本和请求信息所对应的网页文本内容的总相似度;
S5、设定安全阈值,并根据总相似度是否小于安全阈值,判定企业员工的请求信息是否为风险行为;
若是,则阻止该员工的请求行为,并输出该员工的IP地址和硬件地址至后台管理者;
若否,则结束。
2.根据权利要求1所述的管理方法,其特征在于,在步骤S4中,具体包括如下步骤:S41、根据企业大数据提取用户浏览过的且位于职能区域内的网页文本,以生成浏览记录集;
S42、获取用户请求信息所对应网页的第一网页文本;
S43、依次计算浏览记录集和第一网页文本的句子相似度、段落相似度、文本相似度和总相似度。
3.根据权利要求2所述的管理方法,其特征在于,在步骤S43中,具体包括如下步骤:S431、计算浏览记录集中任一网页文本和第一网页文本中句子的句子相似度;
S432、根据句子相似度计算浏览记录集中任一网页文本和第一网页文本中段落的段落相似度;
S433、根据段落相似度计算浏览记录集中任一网页文本和第一网页文本的文本相似度;
S434、根据文本相似度计算浏览记录集和第一网页文本的总相似度。
4.根据权利要求3所述的管理方法,其特征在于,在步骤S432中,具体包括如下步骤:S4321、分别构造浏览记录集中任一网页文本和第一网页文本中段落的结构序列;结构序列的表达式为:上式中, 表示浏览记录集中任一网页文本中任一段落的结构序列, 表示其中的第n个句子, 表示第一网页文本中段落的结构序列, 表示其中的第m个句子;
S4322、构造浏览记录集中任一网页文本和第一网页文本中段落的第一相似度矩阵;
S4323、从左到右、从上到下遍历第一相似度矩阵,提取第一相似度矩阵中的句子相似度的最大值,并删除与该句子相似度最大值相对应的所在行和列中的元素;
S4324、建立最大值数组,并将句子相似度的最大值添加到最大值数组中;
S4325、删除第一相似度矩阵中加入到最大值数组中的句子相似度最大值;
S4326、重复步骤S423到步骤S425,直到第一相似度矩阵中的元素为空;
S4327、计算浏览记录集中任一网页文本和第一网页文本中段落的段落相似度;段落相似度的计算公式为:其中:
上式中, 表示段落相似度, 表示最大值数组的第i个句子相似度,k表示平均系数。
5.根据权利要求1所述的管理方法,其特征在于,在步骤S2中,所述中心节点为网站拓扑图中的一节点,该节点到该岗位员工网页浏览记录所对应网站拓扑图中节点的距离之和最短。
6.根据权利要求4所述的管理方法,其特征在于,在步骤S4322中,第一相似度矩阵的表达式为:上式中, 表示第一相似度矩阵, 表示浏览记录集中任一网页文本中任一段落中的第n个句子,和第一网页文本中任一段落的第m个句子的句子相似度。
7.根据权利要求3所述的管理方法,其特征在于,在步骤S434中,总相似度的计算公式为:上式中, 表示浏览记录集和第一网页文本的总相似度, 表示第一网页文本与职能区域内的第m个不同的网页文本的文本相似度, 为与文本相似度相关的增量函数,其数值与 的数值大小正相关,其数值范围为 。
8.一种用于实现上述权利要求1‑7任一项所述的管理方法的管理系统,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的基于大数据的网络信息安全管理方法。