利索能及
我要发布
收藏
专利号: 2024101047329
申请人: 成都工业职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于计算机的邮件分类方法,其特征在于:包括以下步骤:对原始邮件文本进行数据处理,得到精化后的邮件文本;

将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;

构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:输入有标签的样本邮件数据和对应的标签;

构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:设置训练数据中待分类邮件的特征向量为Dnew,通过公式:  ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,i为训练数据中第i个样本;

建立贝叶斯网络,并通过公式:  ,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Paj为第j个特征再贝叶斯网络的父节点集合,M为特征的个数,Fj为第j个特征的取值,I(Fj,C)为第j个特征是否与类别C有关;

通过公式:  ,求解后验概率P(C|D),其中,K为类别总数, 为所有类别下待分类邮件Dnew的概率;

,式中,p(fj,c)为特征Fj 和类别C同时出现的概率,p(c)和p(c)分别为特征Fj 和类别C单独出现的概率;

若I(Fj,C)=1,则表示第j个特征与类别C有关;

若I(Fj,C)=0,则表示第j个特征与类别C无关;

比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别;

对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;

将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。

2.根据权利要求1所述的基于计算机的邮件分类方法,其特征在于:所述对原始邮件文本进行数据处理,得到精化后的邮件文本,包括以下步骤:将原始邮件文本中尖括号内的文本和除文字外的符号删除;

通过字符串操作函数将原始邮件文本中的字母转化为小写形式;

将停用词存储在一个列表中生成停用词列表,并遍历原始邮件文本中的单词,将符合停用词列表的单词进行删除;

将原始邮件文本中的单词进行还原或缩减,提取每个单词的词干,以得到精化后的邮件文本。

3.根据权利要求2所述的基于计算机的邮件分类方法,其特征在于:所述将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据,包括以下步骤:通过公式:  ,计算每个单词在当前文档中出现的频率tf(w,d),其中,nw,d为单词w在文档d中出现的次数,|d|为文档d中单词的总数;

通过公式:  ,计算每个单词在所有文档中出现的文档频率idf(w,D),其中,N为文档总数,nw 为包含单词w的文档数量;

依据tf(w,d)和idf(w,D),并通过公式:,对每个单词分配权重,得到文本的特征向量,其中,|d|为文档d中单词的总数,nw,d为单词w在文档d中出现的次数,nw 为包含单词w的文档数量,N为文档总数。

4.根据权利要求3所述的基于计算机的邮件分类方法,其特征在于:所述对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化,包括以下步骤:通过公式:  ,计算邮件分类模型的准确率,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量,FN为假负例的数量;

通过公式: ,计算邮件分类模型的召回率,其中TP为真实例的数量,TN为真负例的数量,FN为假负例的数量;

通过公式: ,计算邮件分类模型的精度,其中TP为真实例的数量,TN为真负例的数量,FP为假正例的数量;

3 2

通过公式:δ=(λ1*Accuracy) +(λ2*Recall)+λ3*Precision,计算邮件分类模型的评价值δ,其中λ1为准确率权重、λ2为召回率权重,λ3为精度权重;

设置评价值阈值δ0,若δ0≤δ,则评估邮件分类模型良好,若δ0>δ,则评估邮件分类模型不良好。

5.根据权利要求4所述的基于计算机的邮件分类方法,其特征在于:所述若δ0>δ,则评估邮件分类模型不良好,包括:若评估邮件分类模型不良好,则通过优化函数:,对邮件分类模型

进行优化;其中α和λ为邮件分类模型中分类算法的超参数,F1‑score(modelα,λ,X,Y)为在给定超参数的情况下,使用训练数据X和标签Y训练出的模型modelα,λ的F1‑score。

6.根据权利要求5所述的基于计算机的邮件分类方法,其特征在于:所述通过优化函数:,对邮件分类模型

进行优化,包括:优化函数将F1‑score作为损失函数,并通过梯度下降法进行求解。

7.一种基于计算机的邮件分类装置,其特征在于:所述装置包括:处理模块,用于对原始邮件文本进行数据处理,得到精化后的邮件文本;

转换模块,用于将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;

训练模块,用于构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;所述构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:输入有标签的样本邮件数据和对应的标签;

构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:设置训练数据中待分类邮件的特征向量为Dnew,通过公式:  ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,i为训练数据中第i个样本;

建立贝叶斯网络,并通过公式:  ,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Paj为第j个特征再贝叶斯网络的父节点集合,M为特征的个数,Fj为第j个特征的取值,I(Fj,C)为第j个特征是否与类别C有关;

通过公式:  ,求解后验概率P(C|D),其中,K为类别总数,  为所有类别下待分类邮件Dnew的概率;

,式中,p(fj,c)为特征Fj 和类别C同时出现的概率,p(c)和p(c)分别为特征Fj 和类别C单独出现的概率;

若I(Fj,C)=1,则表示第j个特征与类别C有关;

若I(Fj,C)=0,则表示第j个特征与类别C无关;

比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别;

评估模块,用于对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;

分类模块,用于将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。