利索能及
我要发布
收藏
专利号: 2013104772764
申请人: 深圳先进技术研究院
专利类型:发明专利
专利状态:已下证
更新日期:2024-12-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种钓鱼网站鉴别系统,其特征在于,包括:

页面爬取模块,用于爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;

特征提取模块,其和所述页面爬取模块相连接,用于提取所述网站的页面特征词、内/外链接数量之比及排名信息;

网页关系建模模块,其和所述特征提取模块相连接,用于根据所述页面特征词获取所述网站和黑/白名单的关系;

决策树分类模块,其和所述网页关系建模模块相连接,用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及鉴别模块,其和所述决策树训练模块及所述网页关系建模模块分别相连接,用于保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。

2.如权利要求1所述的钓鱼网站鉴别方法,其特征在于,所述网站包括所述已知网站和所述未知网站。

3.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述页面爬取模块使用网络爬虫技术爬取所述网站的页面的所有内容,获取网站源代码。

4.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块;

所述特征词提取子模块对所述页面爬取模块提取出的中文文字进行分词;所述特征词频率计算子模块根据所述特征词提取子模块获取的特征词向量,计算网页出现所述特征词向量中每一个特征词的频率;所述链接特征提取子模块从所述页面爬取模块获取的网站源代码中,计算内/外链接数量之比;所述网站排名特征提取子模块将网站的排名信息作为网页的一个特征向量。

5.如权利要求4所述的钓鱼网站鉴别系统,其特征在于,所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和和黑/白名单的关系。

6.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述决策树分类模块采用C4.5决策树算法。

7.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块和所述页面爬取模块之间、所述网页关系建模模块和所述特征提取模块之间、所述决策树分类模块和所述网页关系建模模块之间、所述鉴别模块和所述决策树训练模块之间以及所述鉴别模块和所述网页关系建模模块之间为电性连接、数据连接或通信连接。

8.一种钓鱼网站鉴别方法,其特征在于,包括如下步骤:

S11、利用页面爬取模块爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;

S13、利用特征提取模块提取所述网站的页面特征词、内/外链接数量之比及排名信息;

S15、利用网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系;

S17、利用决策树分类模块将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及S19、利用鉴别模块保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。

9.如权利要求8所述的钓鱼网站鉴别方法,其特征在于,步骤S11中,所述网站包括所述已知网站和所述未知网站。