利索能及
我要发布
收藏
专利号: 202010597346X
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于BERT的智慧政务文本多分类方法,其特征在于,包括:获取政务文本并转换为特征向量,所述特征向量由词向量、分段向量和位置向量组成,同时标记文本中每句话的开头和结尾;

将特征向量输入至训练完成的BERT模型中,输出政务文本的分类结果;

其中,在训练BERT模型的过程中,采用双向Transformer编码中的Encoder特征抽取器提取特征向量中的文本特征;

Encoder特征抽取器由自注意力机制和前馈神经网络组成;

在训练模型时当训练步数超过预设次数,在验证集上进行验证并给出准确率,如果准确率大于此前的最高分模型则保存模型;

在训练BERT模型的过程中,设定测试结果评价指标,保存最高分模型作为训练完成的BERT模型;

其中,准确率采用Acc表示,其表达式为:

TP表示真正例样本数,FP表示实际为假正例样本数,FN表示实际为假负例样本数,TN表示实际为真负例样本数。

2.如权利要求1所述的基于BERT的智慧政务文本多分类方法,其特征在于,词向量表示对当前词的编码,分段向量表示对当前词所在句子的位置编码,位置向量表示对当前词的位置编码,每一句话使用CLS和SEP作为开头和结尾的标记。

3.如权利要求1所述的基于BERT的智慧政务文本多分类方法,其特征在于,政务文本包括留言的编号,用户,主题,时间,留言详情和分类标签。

4.如权利要求1所述的基于BERT的智慧政务文本多分类方法,其特征在于,在训练BERT模型的过程中,采用预训练模型BERT‑Base‑Chinese模型,在训练模型时直接将预训练模型加载运行。

5.如权利要求1所述的基于BERT的智慧政务文本多分类方法,其特征在于,测试结果评价指标包括准确率、精确率、召回率和F1值;

其中,精确率采用P表示,其表达式为: ;

召回率采用R表示,其表达式为: ;

F1值采用F1表示,其表达式为: 。

6.一种基于BERT的智慧政务文本多分类系统,其特征在于,包括:特征转换模块,其用于获取政务文本并转换为特征向量,所述特征向量由词向量、分段向量和位置向量组成,同时标记文本中每句话的开头和结尾;

本文分类模块,其用于将特征向量输入至训练完成的BERT模型中,输出政务文本的分类结果;

其中,在训练BERT模型的过程中,采用双向Transformer编码中的Encoder特征抽取器提取特征向量中的文本特征;

在训练BERT模型的过程中,设定测试结果评价指标,保存最高分模型作为训练完成的BERT模型;

其中,准确率采用Acc表示,其表达式为:

TP表示真正例样本数,FP表示实际为假正例样本数,FN表示实际为假负例样本数,TN表示实际为真负例样本数。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑5中任一项所述的基于BERT的智慧政务文本多分类方法中的步骤。

8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑5中任一项所述的基于BERT的智慧政务文本多分类方法中的步骤。