利索能及
我要发布
收藏
专利号: 2017109795347
申请人: 苏翀
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种垃圾邮件的分类方法,其特征在于:包括以下步骤:

1)联合文档‑特征词频率来确定ham类和spam类的特征权重;

2)采用相对文档‑特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档‑特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;

3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;

4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;

5)输出F1值最高的候选特征子集作为最终的特征集合,所述验证为十字交叉验证,

所述十字交叉验证为基于分类器的十字交叉验证,所述分类器包含有NB分类器和SVM分类器,所述步骤4)还包含有步骤:每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到粒子群。