1.一种网页识别方法,其特征在于,包括:
获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
根据所述网站域名获取所述网站对应的网络地址;
查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
获取所述待识别域名对应的网站中的网页数据;
根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页;
包括:将所述网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网页数据与所述第一过滤数据匹配成功时,则对所述待识别域名添加可疑标签;将添加可疑标签的所述待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页;
当经过所述预设的黑名单与所述预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在所述安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
2.根据权利要求1所述的方法,其特征在于,所述查找与所述网络地址关联的域名的步骤,包括:将所述网络地址与地址关联库中预存储的网络地址进行匹配;
当所述网络地址与所述地址关联库中预存储的网络地址匹配成功时,获取与所述预存储的网络地址关联的待匹配关联域名;
获取所述待匹配关联域名的有效截止时间;
若当前时间小于等于所述有效截止时间时,则提取所述待匹配关联域名作为待识别域名。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当未查找到与所述网络地址关联的域名时,则获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名。
4.根据权利要求3所述的方法,其特征在于,所述获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名的步骤,包括:获取所述网站的域名对应的注册数据,从转换逻辑库中选取所述注册数据对应的转换逻辑;
根据所述转换逻辑将所述注册数据进行转换得到转换后的注册数据;
将所述转换后的注册数据与信息存储库中存储的信息数据进行匹配;
当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的所述信息数据关联的域名作为待识别域名。
5.根据权利要求1所述的方法,其特征在于,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤之后,还包括:提取所述风险等级大于预设等级的网页的网页数据的关键字,根据所述关键字对所述风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签;
将所述风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配;
当未匹配成功时,则添加所述风险等级大于预设等级的待识别域名的类别标签,并将所述风险等级大于预设等级的网页存储至所述类别标签下。
6.一种网页识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
第二获取模块,用于根据所述网站域名获取所述网站对应的网络地址;
查找模块,用于查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
第三获取模块,用于获取所述待识别域名对应的网站中的网页数据;
识别模块,用于根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页;
所述识别模块包括:
第一过滤单元,用于将网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网页数据与所述第一过滤数据匹配成功时,则对待识别域名添加可疑标签;
第二过滤单元,用于将添加可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;
标签域名获取单元,用于当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页;
标识符获取模块,用于当经过预设的黑名单与预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;
标识符匹配模块,用于将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;
安全域名匹配模块,用于当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;
可疑域名提取模块,用于当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
7.一种计算机设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至
5中任意一项所述方法中的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任意一项所述方法中的步骤。