买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于计算机的邮件分类方法及装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于计算机的邮件分类方法及装置

￥16800

专利号： 2024101047329

申请人：成都工业职业技术学院

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于计算机的邮件分类方法，其特征在于：包括以下步骤：对原始邮件文本进行数据处理，得到精化后的邮件文本；

将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据；

构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练，包括以下步骤：输入有标签的样本邮件数据和对应的标签；

构建分类算法，并通过分类算法对有标签的样本邮件数据和对应的标签进行训练，生成邮件分类模型，包括以下步骤：设置训练数据中待分类邮件的特征向量为Dnew，通过公式：，计算先验概率P(C)，其中，N为训练数据中的样本数，C为类别，i为训练数据中第i个样本；

建立贝叶斯网络，并通过公式：，计算待分类邮件在给定类别C下出现的概率P(D|C)，其中，Paj为第j个特征再贝叶斯网络的父节点集合，M为特征的个数，Fj为第j个特征的取值，I(Fj,C)为第j个特征是否与类别C有关；

通过公式：，求解后验概率P(C|D)，其中，K为类别总数，为所有类别下待分类邮件Dnew的概率；

，式中，p(fj,c)为特征Fj 和类别C同时出现的概率，p(c)和p(c)分别为特征Fj 和类别C单独出现的概率；

若I(Fj,C)=1，则表示第j个特征与类别C有关；

若I(Fj,C)=0，则表示第j个特征与类别C无关；

比较不同类别下的后验概率，将概率最大的类别作为待分类邮件的预测类别；

对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化；

将邮件特征向量输入至优化后的邮件分类模型中，输出邮件特征向量的分类结果。

2.根据权利要求1所述的基于计算机的邮件分类方法，其特征在于：所述对原始邮件文本进行数据处理，得到精化后的邮件文本，包括以下步骤：将原始邮件文本中尖括号内的文本和除文字外的符号删除；

通过字符串操作函数将原始邮件文本中的字母转化为小写形式；

将停用词存储在一个列表中生成停用词列表，并遍历原始邮件文本中的单词，将符合停用词列表的单词进行删除；

将原始邮件文本中的单词进行还原或缩减，提取每个单词的词干，以得到精化后的邮件文本。

3.根据权利要求2所述的基于计算机的邮件分类方法，其特征在于：所述将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据，包括以下步骤：通过公式：，计算每个单词在当前文档中出现的频率tf(w,d)，其中，nw,d为单词w在文档d中出现的次数，|d|为文档d中单词的总数；

通过公式：，计算每个单词在所有文档中出现的文档频率idf(w,D)，其中，N为文档总数，nw 为包含单词w的文档数量；

依据tf(w,d)和idf(w,D)，并通过公式：，对每个单词分配权重，得到文本的特征向量，其中，|d|为文档d中单词的总数，nw,d为单词w在文档d中出现的次数，nw 为包含单词w的文档数量，N为文档总数。

4.根据权利要求3所述的基于计算机的邮件分类方法，其特征在于：所述对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化，包括以下步骤：通过公式：，计算邮件分类模型的准确率，其中TP为真正例的数量，TN为真负例的数量，FP为假正例的数量，FN为假负例的数量；

通过公式：，计算邮件分类模型的召回率，其中TP为真实例的数量，TN为真负例的数量，FN为假负例的数量；

通过公式：，计算邮件分类模型的精度，其中TP为真实例的数量，TN为真负例的数量，FP为假正例的数量；

3 2

通过公式：δ=(λ1*Accuracy) +(λ2*Recall)+λ3*Precision，计算邮件分类模型的评价值δ，其中λ1为准确率权重、λ2为召回率权重，λ3为精度权重；

设置评价值阈值δ0，若δ0≤δ，则评估邮件分类模型良好，若δ0>δ，则评估邮件分类模型不良好。

5.根据权利要求4所述的基于计算机的邮件分类方法，其特征在于：所述若δ0>δ，则评估邮件分类模型不良好，包括：若评估邮件分类模型不良好，则通过优化函数：，对邮件分类模型

进行优化；其中α和λ为邮件分类模型中分类算法的超参数，F1‑score(modelα,λ,X,Y)为在给定超参数的情况下，使用训练数据X和标签Y训练出的模型modelα,λ的F1‑score。

6.根据权利要求5所述的基于计算机的邮件分类方法，其特征在于：所述通过优化函数：，对邮件分类模型

进行优化，包括：优化函数将F1‑score作为损失函数，并通过梯度下降法进行求解。

7.一种基于计算机的邮件分类装置，其特征在于：所述装置包括：处理模块，用于对原始邮件文本进行数据处理，得到精化后的邮件文本；

转换模块，用于将精化后的邮件文本转换为邮件特征向量，并收集样本邮件数据；

训练模块，用于构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练；所述构建邮件分类模型，并以样本邮件数据为训练数据对邮件分类模型进行训练，包括以下步骤：输入有标签的样本邮件数据和对应的标签；

通过公式：，求解后验概率P(C|D)，其中，K为类别总数，为所有类别下待分类邮件Dnew的概率；

，式中，p(fj,c)为特征Fj 和类别C同时出现的概率，p(c)和p(c)分别为特征Fj 和类别C单独出现的概率；

若I(Fj,C)=1，则表示第j个特征与类别C有关；

若I(Fj,C)=0，则表示第j个特征与类别C无关；

比较不同类别下的后验概率，将概率最大的类别作为待分类邮件的预测类别；

评估模块，用于对邮件分类模型进行评估，并根据评估结果对邮件分类模型进行优化；

分类模块，用于将邮件特征向量输入至优化后的邮件分类模型中，输出邮件特征向量的分类结果。

推荐专利

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们