1.一种基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,包括以下步骤:S1:选定至少两个基础分类器,将其分为一级学习器和二级学习器;
S2:提取已知网站的URL特征,并作筛选,将筛选出来的URL特征作为一级学习器的输入特征;
S3:对提取URL特征的网站制作标签,标签为是否为钓鱼网站,制作的标签与其网站的输入特征,作为一个数据集;
S4:重复S2和S3步骤,对多个网站URL特征进行提取筛选,得到包含多个数据集的原始数据集;
S5:将S4得到的原始数据集输入至一级学习器中,一级学习器输出多个初级特征;
S6:使用一级学习器的输出的初级特征、S2中提取的网站的URL特征和对应网站的标签作为二级学习器的输入特征,构成一个新的数据集;
S7:将S6得到的新的数据集输入至二级学习器中,对二级学习器进行训练;
S8:将需要测试的未知网站的URL特征依次经过一级学习器和二级学习器进行检测,得到检测结果。
2.根据权利要求1所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述S1过程中,使用DF、XGBoost、LightGBM三个基础分类器作为一级学习器,使用GBDT算法作为二级学习器,一级学习器中,提取的网站的URL特征均分别通过三个基础分类器进行分类。
3.根据权利要求1所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述S2过程中,网站URL特征进行筛选,筛选出来的特征包括该网站的域名是否包含IP地址,URL长度信息,是否存在可疑符号,是否存在重定向,是否存在相似的域名标签,URL的子域名数,URL的子域名长度,活跃时间和域名中点的个数。
4.根据权利要求1所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述S4步骤后,将原始数据集分割为训练集和测试集,再进行S5步骤,训练集用于输入至一级学习器中进行训练,测试集用于测试基础分类器的泛化性能。
5.根据权利要求4所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述训练集占比为60~75%,剩余为测试集。
6.根据权利要求4或5所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述S5过程中,将训练集分为N个子集使用交叉验证的方法对一级学习器进行训练。