1.一种钓鱼网站鉴别系统,包括已知解析单元、未知解析单元和检测模块(20),所述检测模块(20)分别与所述已知解析单元、未知解析单元连接,其特征在于,所述已知解析单元至少包括第一特征提取模块(31)和分类训练模块(30),所述第一特征提取模块(31)用于提取已知钓鱼网站URL或源码的特征向量,所述分类训练模块(30)用于对已知钓鱼网站URL或源码的特征向量进行分类训练得到的特征模型,并存入所述检测模块(20)中;所述未知解析单元至少包括第二特征提取模块(11),所述第二特征提取模块(11)用于提取未知网站URL或源码的特征向量,并存入所述检测模块(20)中。
2.根据权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述第一特征提取模块(31)与所述分类训练模块(30)连接,所述检测模块(20)分别与所述分类训练模块(30)、第二特征提取模块(11)连接,所述检测模块(20)用于将未知特征向量与特征模型对比。
3.根据权利要求2所述的钓鱼网站鉴别系统,其特征在于,所述已知解析单元还包括第一获取模块(32),所述第一获取模块(32)与所述第一特征提取模块(31)连接,用于获取已知钓鱼网站的URL或源码,并发送至所述第一特征提取模块(31)。
4.根据权利要求2所述的钓鱼网站鉴别系统,其特征在于,所述未知解析单元还包括第二获取模块(12),所述第二获取模块(12)与所述第二特征提取模块(11)连接,用于获取未知网站的URL或源码,并发送至所述第二特征提取模块(11)。
5.如权利要求1至4所述系统的钓鱼网站鉴别方法,其特征在于,包括以下步骤:
(1)获取已知钓鱼网站的URL或源码,提取已知钓鱼网站URL或源码的特征向量;
(2)对已知特征向量进行分类训练解析,建立特征模型;
(3)获取未知网站的URL或源码,提取未知网站URL或源码的特征向量;
(4)将未知特征向量与所述特征模型进行对比分析,做出判定。
6.根据权利要求5所述的钓鱼网站鉴别方法,其特征在于,所述特征向量包括URL特征、域名特征和链接关系特征。
7.根据权利要求6所述的钓鱼网站鉴别方法,其特征在于,URL特征包括URL长度、@字符、IP地址、网站访问量和与已知钓鱼网站链接的URL数量。
8.根据权利要求6所述的钓鱼网站鉴别方法,其特征在于,所述域名特征包括子域名数量、域名信息和域名创建时间。
9.根据权利要求6所述的钓鱼网站鉴别方法,其特征在于,所述链接关系为网站内、外链接关系。