1.一种钓鱼网站鉴别系统,其特征在于,包括:
特征提取模块,用于提取网站的页面信息及排名信息,并获得特征向量;
特征向量降维模块,其和所述特征提取模块相连接,用于对所述特征向量进行降维,获得降维后的特征向量;
分类训练模块,其和所述特征向量降维模块相连接,用于对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;及鉴别模块,其和所述分类训练模块及所述特征向量降维模块分别相连接,用于保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别,判断是否为钓鱼网站;
其中,将所述特征提取模块所提取的网站内容的特征向量和网站排名信息的特征向量作为网站的特征向量进行后续处理;所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中,并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词;
所述分类训练模块具体采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练,得到所述分类模型:将已知网站的所述降维的特征向量作为训练数据通过隐含层节点作用于输出层节点,经过非线形变换,产生输出节点的输出值Yk;输出节点的输出值Yk与期望输出值tk之间的偏差,通过调整权值wi,j、Tj,k以及阈值θi、θk,使误差沿梯度方向下降,并经过反复学习训练,确定与最小误差相对应的权值和阈值,训练即停止。
2.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量包括网站内容的特征向量和网站排名信息的特征向量。
3.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块采用互信息法从所述一级特征词中选取特征词,作为网站内容的特征向量。
4.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量降维模块采用主成分分析方法对所述特征向量进行降维。
5.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量降维模块和所述特征提取模块之间、所述分类训练模块和所述特征向量降维模块之间、所述鉴别模块和所述分类训练模块之间以及所述鉴别模块和所述特征向量降维模块之间为电性连接、数据连接或通信连接。
6.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述网站包括所述已知网站和所述未知网站。
7.一种钓鱼网站鉴别方法,其特征在于,包括如下步骤:
S11、利用特征提取模块提取网站的页面信息及排名信息,获得特征向量;
S13、利用特征向量降维模块对所述特征向量进行降维,获得降维后的特征向量;
S15、利用分类训练模块对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;
S17、利用鉴别模块保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别;
其中,将所述特征提取模块所提取的网站内容的特征向量和网站排名信息的特征向量作为网站的特征向量进行后续处理;所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中,并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词;
所述分类训练模块具体采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练,得到所述分类模型:将已知网站的所述降维的特征向量作为训练数据通过隐含层节点作用于输出层节点,经过非线形变换,产生输出节点的输出值Yk;输出节点的输出值Yk与期望输出值tk之间的偏差,通过调整权值wi,j、Tj,k以及阈值θi、θk,使误差沿梯度方向下降,并经过反复学习训练,确定与最小误差相对应的权值和阈值,训练即停止。
8.如权利要求7所述的钓鱼网站鉴别方法,其特征在于,步骤S11中,所述网站包括所述已知网站和所述未知网站。