1.一种基于计算机的邮件分类方法,其特征在于:包括以下步骤:对原始邮件文本进行数据处理,得到精化后的邮件文本;
将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:输入有标签的样本邮件数据和对应的标签;
构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:设置训练数据中待分类邮件的特征向量为Dnew,通过公式: ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,i为训练数据中第i个样本;
建立贝叶斯网络,并通过公式: ,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Paj为第j个特征再贝叶斯网络的父节点集合,M为特征的个数,Fj为第j个特征的取值,I(Fj,C)为第j个特征是否与类别C有关;
通过公式: ,求解后验概率P(C|D),其中,K为类别总数, 为所有类别下待分类邮件Dnew的概率;
,式中,p(fj,c)为特征Fj 和类别C同时出现的概率,p(c)和p(c)分别为特征Fj 和类别C单独出现的概率;
若I(Fj,C)=1,则表示第j个特征与类别C有关;
若I(Fj,C)=0,则表示第j个特征与类别C无关;
比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别;
对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。
2.根据权利要求1所述的基于计算机的邮件分类方法,其特征在于:所述对原始邮件文本进行数据处理,得到精化后的邮件文本,包括以下步骤:将原始邮件文本中尖括号内的文本和除文字外的符号删除;
通过字符串操作函数将原始邮件文本中的字母转化为小写形式;
将停用词存储在一个列表中生成停用词列表,并遍历原始邮件文本中的单词,将符合停用词列表的单词进行删除;
将原始邮件文本中的单词进行还原或缩减,提取每个单词的词干,以得到精化后的邮件文本。
3.根据权利要求2所述的基于计算机的邮件分类方法,其特征在于:所述将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据,包括以下步骤:通过公式: ,计算每个单词在当前文档中出现的频率tf(w,d),其中,nw,d为单词w在文档d中出现的次数,|d|为文档d中单词的总数;
通过公式: ,计算每个单词在所有文档中出现的文档频率idf(w,D),其中,N为文档总数,nw 为包含单词w的文档数量;
依据tf(w,d)和idf(w,D),并通过公式:,对每个单词分配权重,得到文本的特征向量,其中,|d|为文档d中单词的总数,nw,d为单词w在文档d中出现的次数,nw 为包含单词w的文档数量,N为文档总数。
4.根据权利要求3所述的基于计算机的邮件分类方法,其特征在于:所述对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化,包括以下步骤:通过公式: ,计算邮件分类模型的准确率,其中TP为真正例的数量,TN为真负例的数量,FP为假正例的数量,FN为假负例的数量;
通过公式: ,计算邮件分类模型的召回率,其中TP为真实例的数量,TN为真负例的数量,FN为假负例的数量;
通过公式: ,计算邮件分类模型的精度,其中TP为真实例的数量,TN为真负例的数量,FP为假正例的数量;
3 2
通过公式:δ=(λ1*Accuracy) +(λ2*Recall)+λ3*Precision,计算邮件分类模型的评价值δ,其中λ1为准确率权重、λ2为召回率权重,λ3为精度权重;
设置评价值阈值δ0,若δ0≤δ,则评估邮件分类模型良好,若δ0>δ,则评估邮件分类模型不良好。
5.根据权利要求4所述的基于计算机的邮件分类方法,其特征在于:所述若δ0>δ,则评估邮件分类模型不良好,包括:若评估邮件分类模型不良好,则通过优化函数:,对邮件分类模型
进行优化;其中α和λ为邮件分类模型中分类算法的超参数,F1‑score(modelα,λ,X,Y)为在给定超参数的情况下,使用训练数据X和标签Y训练出的模型modelα,λ的F1‑score。
6.根据权利要求5所述的基于计算机的邮件分类方法,其特征在于:所述通过优化函数:,对邮件分类模型
进行优化,包括:优化函数将F1‑score作为损失函数,并通过梯度下降法进行求解。
7.一种基于计算机的邮件分类装置,其特征在于:所述装置包括:处理模块,用于对原始邮件文本进行数据处理,得到精化后的邮件文本;
转换模块,用于将精化后的邮件文本转换为邮件特征向量,并收集样本邮件数据;
训练模块,用于构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练;所述构建邮件分类模型,并以样本邮件数据为训练数据对邮件分类模型进行训练,包括以下步骤:输入有标签的样本邮件数据和对应的标签;
构建分类算法,并通过分类算法对有标签的样本邮件数据和对应的标签进行训练,生成邮件分类模型,包括以下步骤:设置训练数据中待分类邮件的特征向量为Dnew,通过公式: ,计算先验概率P(C),其中,N为训练数据中的样本数,C为类别,i为训练数据中第i个样本;
建立贝叶斯网络,并通过公式: ,计算待分类邮件在给定类别C下出现的概率P(D|C),其中,Paj为第j个特征再贝叶斯网络的父节点集合,M为特征的个数,Fj为第j个特征的取值,I(Fj,C)为第j个特征是否与类别C有关;
通过公式: ,求解后验概率P(C|D),其中,K为类别总数, 为所有类别下待分类邮件Dnew的概率;
,式中,p(fj,c)为特征Fj 和类别C同时出现的概率,p(c)和p(c)分别为特征Fj 和类别C单独出现的概率;
若I(Fj,C)=1,则表示第j个特征与类别C有关;
若I(Fj,C)=0,则表示第j个特征与类别C无关;
比较不同类别下的后验概率,将概率最大的类别作为待分类邮件的预测类别;
评估模块,用于对邮件分类模型进行评估,并根据评估结果对邮件分类模型进行优化;
分类模块,用于将邮件特征向量输入至优化后的邮件分类模型中,输出邮件特征向量的分类结果。