1.一种垃圾邮件的分类方法,其特征在于:包括以下步骤:
1)联合文档‑特征词频率来确定ham类和spam类的特征权重;
2)采用相对文档‑特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档‑特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;
3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;
4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;
5)输出F1值最高的候选特征子集作为最终的特征集合,所述验证为十字交叉验证,
所述十字交叉验证为基于分类器的十字交叉验证,所述分类器包含有NB分类器和SVM分类器,所述步骤4)还包含有步骤:每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到粒子群。