1.一种中文钓鱼网站检测方法,其特征在于,所述方法包括:S1、客户端获取网址URL;
S2、分别提取网址URL特征和网站页面内容特征作为特征向量;
S3、通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;
S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中网址URL的获取方式包括手动输入、二维码扫描、点击邮件/短信中的链接。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2前还包括:将网址URL与本地数据库中的黑名单和白名单进行比对;
若网址URL在黑名单中,则返回该网址URL为钓鱼网站;
若网址URL在白名单中,则返回该网址URL为正常网址。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2中的网址URL特征包括:域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后。
5.根据权利要求1所述的方法,其特征在于,所述步骤S2中的网站页面内容特征包括:string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本。
6.根据权利要求5所述的方法,其特征在于,所述步骤S2还包括:对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本进行分词,使用TF-IDF算法提取代表性较强的特征词作为对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单网站页面内容特征的特征向量。
7.根据权利要求4所述的方法,其特征在于,所述步骤S3包括:对网址URL特征采用决策树算法进行分类训练。
8.根据权利要求6所述的方法,其特征在于,所述步骤S3包括:对string字符串采用支持向量机进行分类训练;
对title标签、alt标签、keyword标签、copyright标签、description标签采用扩展的朴素贝叶斯算法进行分类训练;
对src名称、frame框架、form表单采用链接和表单处理法进行分类训练。
9.根据权利要求1所述的方法,其特征在于,所述步骤S4具体为:通过采样计算每个特征向量的精确度和召回率;
根据得到的精确度和召回率判断每个特征向量在总体判断中所占权重;
根据对应特征向量的检测结果和在总体判断中所占权重,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
10.一种如权利要求1所述的中文钓鱼网站检测系统,其特征在于,所述系统包括:客户端模块,获取网址URL;
特征提取模块,提取网址URL特征和网站页面内容特征作为特征向量;
分类训练模块,通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;
分类集成模块,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。