1.一种钓鱼网站鉴别系统,其特征在于,包括:
特征提取模块,用于提取网站的页面信息及排名信息,并获得特征向量;
特征向量降维模块,其和所述特征提取模块相连接,用于对所述特征向量进行降维,获得降维后的特征向量;
分类训练模块,其和所述特征向量降维模块相连接,用于对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;及鉴别模块,其和所述分类训练模块及所述特征向量降维模块分别相连接,用于保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别,判断是否为钓鱼网站。
2.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量包括网站内容的特征向量和网站排名信息的特征向量。
3.如权利要求2所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中,并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词。
4.如权利要求3所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块采用互信息法从所述一级特征词中选取特征词,作为网站内容的特征向量。
5.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量降维模块采用主成分分析方法对所述特征向量进行降维。
6.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述分类训练模块采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练,得到所述分类模型。
7.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量降维模块和所述特征提取模块之间、所述分类训练模块和所述特征向量降维模块之间、所述鉴别模块和所述分类训练模块之间以及所述鉴别模块和所述特征向量降维模块之间为电性连接、数据连接或通信连接。
8.如权利要求1所述的钓鱼网站鉴别方法,其特征在于,所述网站包括所述已知网站和所述未知网站。
9.一种钓鱼网站鉴别方法,其特征在于,包括如下步骤:
S11、利用特征提取模块提取网站的页面信息及排名信息,获得特征向量;
S13、利用特征向量降维模块对所述特征向量进行降维,获得降维后的特征向量;
S15、利用分类训练模块对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;
S17、利用鉴别模块保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别。
10.如权利要求9所述的钓鱼网站鉴别方法,其特征在于,步骤S11中,所述网站包括所述已知网站和所述未知网站。