1.一种基于大数据的系统访问风险识别方法,其特征在于,包括以下步骤:
S1.获取历史系统访问日志数据集,并对其进行融合哈希用户名重建预处理,得到预处理数据集;
S2.提取每一条预处理数据的指数式极角极径日历特征和网格化地理交叉特征组成一条训练数据,得到训练数据集;
S3.通过LXT模型重要性对数函数加权平均融合法对每一条训练数据进行特征选择,得到对应的特征样本数据;
S4.将特征样本数据输入加权对数损失支持向量机进行模型的训练,最终得到训练好的标准SVM优化模型;
S5.获取待处理用户的历史系统访问日志数据输入标准SVM优化模型,输出待处理用户的系统访问风险识别结果。
2.根据权利要求1所述的一种基于大数据的系统访问风险识别方法,其特征在于,步骤S1所述的用户的历史系统访问日志数据包括用户名、认证IP、认证日期、认证设备号、HTTP类型码和认证城市。
3.根据权利要求2所述的一种基于大数据的系统访问风险识别方法,其特征在于,对历史系统访问日志数据集进行融合哈希用户名重建预处理,包括:S11.清洗每一条历史系统访问日志数据,判断其是否缺少用户名,若是则执行步骤S12;若不是,则直接将该历史系统访问日志数据作为预处理数据;
S12.对于每一条缺少用户名的用户历史系统访问日志数据,获取其认证IP、认证设备号,以及认证日期转化的时间戳;将认证IP和认证设备号拼接并进行MD5哈希得到第一哈希值;将第一哈希值的前9位与认证日期转化的时间戳拼接并进行SHA256哈希得到第二哈希值;取第二哈希值的前7位作为用户名。
4.根据权利要求1所述的一种基于大数据的系统访问风险识别方法,其特征在于,步骤S2提取任一条预处理数据的指数式极角极径日历特征的过程,包括:S201.获取预处理数据中的认证日期转化的时间戳,对其进行指数式极坐标日历变化得到指数式极角和指数式极径;
S202.将指数式极角分段,使每一段对应一个小时,并通过one‑hot编码将分段后的指数式极角映射为24维向量,其表示为[θ1,θ2,...,θ24],其中θk,k=1,2,...,24表示第k小时时间段,若认证日期转化的时间戳所在的时间段为第k小时,则θk=1,否则θk=0;
S203.将24维向量与指数式极径进行拼接,得到该预处理数据的指数式极角极径日历特征x=[r′,θ1,...,θ24],其中r′表示指数式极径。
5.根据权利要求4所述的一种基于大数据的系统访问风险识别方法,其特征在于,步骤S201得到指数式极角和指数式极径的公式为:其中,t表示所有预处理数据集中起始时间戳与终止时间戳的差值,t表示当前预处理数据的时间戳,t0表示所有预处理数据集中的起始时间戳,r′表示指数式极径,θ表示指数式极角,a为用于控制指数函数的增长速度的超参数,μ为用于控制指数函数的中心位置的超参数,α、β为指数函数的系数,0≤h<24表示认证日期转化的时间戳所对应的小时数。
6.根据权利要求1所述的一种基于大数据的系统访问风险识别方法,其特征在于,步骤S2提取任一条预处理数据的网格化地理交叉特征,包括:S211.获取预处理数据中的认证城市转化的原始经纬度信息,对其进行对数余弦式经纬度变化得到对数余弦式经度和对数余弦式纬度;
S212.将中国地图根据对数余弦式经纬度进行网格划分得到12×12的网格矩阵,该网格矩阵中的元素fi,j=[f1,f2]表示第i行第j列所对应网格的网格特征,其中f1表示该网格中所有认证IP数量的统计,f2表示该网格中不同认证IP数量的统计;
S213.根据步骤S211获取的对数余弦式经度和对数余弦式纬度在网格矩阵中确定对应的网格,并将该对应网格的网格特征与该预处理数据的原始特征和指数式极角极径日历特征进行拼接得到网格化地理交叉特征,其表示为 其中,[x1,x2,...,x6]表示预处理数据的原始特征,[r′,θ1,...,θ24]表示预处理数据的指数式极角极径日历特征。
7.根据权利要求1所述的一种基于大数据的系统访问风险识别方法,其特征在于,步骤S3通过LXT模型重要性对数函数加权平均融合法对每一条训练数据进行特征选择,包括:S31.将一条训练数据分别送入Xgboost模型、Lightgbm模型和Decision Tree模型,得到该训练数据中每一个特征的3组不同的重要性w1,i、w2,i和w3,i;其中i表示训练数据中的第i=1,2,…,33个特征;
S32.将每一个特征的3组不同的重要性进行对数函数加权平均融合,得到每一个特征的特征重要性;
S33.根据步骤S32获取的所有特征的特征重要性,以特征名称为横坐标,特征重要性为纵坐标绘制一个特征重要性曲线图,找到特征重要性曲线图中的拐点并将其纵坐标值取为阈值,舍去特征重要性小于该阈值的所有特征,采用保留的特征组成一条特征样本数据。