利索能及
我要发布
收藏
专利号: 2020106587096
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于机器学习的政务文本分类及热点问题挖掘方法,其特征在于,包括以下步骤:获取多条训练政务文本数据及相应标签,并构建编码字典;所述编码字典中包括训练政务文本数据中的每个字及相应编码;

基于编码字典得到所述多条训练政务文本数据的向量表示;

对标签数据进行编码,得到各标签的向量表示;

根据文本数据及相应标签的向量表示,采用机器学习模型训练政务文本分类模型;所述政务文本分类模型用于政务文本分类;

获取多条政务文本数据,基于政务文本分类模型,得到各条政务文本数据所属的类别;

针对某一类政务文本数据:

基于相似度分析方法确定该类政务文本数据中留言数据的类别数;其中,基于相似度分析方法确定该类政务文本数据中留言数据的类别数,包括:分别计算留言详情的两两相似度并将相似度大于阈值的设为一类;

以该类别数作为聚类类别数,对留言数据进行聚类,包括:将得到的问题类别数作为K‑Means聚类的K值进行聚类;

结合留言数据的评价,计算留言数据的热度。

2.如权利要求1所述的一种基于机器学习的政务文本分类及热点问题挖掘方法,其特征在于,根据训练政务文本中不重复的文字个数n,将文字从0至n‑1进行编码,得到编码字典。

3.如权利要求1所述的一种基于机器学习的政务文本分类及热点问题挖掘方法,其特征在于,对标签数据进行编码包括:为每个标签设定一个唯一编号,进行one‑hot编码,得到各个标签的编码表示。

4.如权利要求1所述的一种基于机器学习的政务文本分类及热点问题挖掘方法,其特征在于,对留言数据进行相似度分析包括:对待计算相似度的两条留言数据进行区去重、去停用词操作,并进行分词;

将两条留言数据分词得到的词语拼接在一起,得到拼接后的集合;

将两条留言数据按照在集合中的位置分别进行编码,得到向量表示;

基于两条留言数据的向量表示进行相似度计算。

5.如权利要求1所述的一种基于机器学习的政务文本分类及热点问题挖掘方法,其特征在于,对留言数据进行聚类包括:构建i行j列的文本特征矩阵,i表示该类文本中的留言数目,j表示该类文本中经分词处理的词语个数,矩阵中第m行第n列表示第n各词语在第m条留言中的TF‑IDF权重;

以该类别数作为聚类类别数,根据文本特征矩阵中每一行留言数据的文本特征,采用K‑means聚类方法对留言数据进行聚类。

6.如权利要求1所述的一种基于机器学习的政务文本分类及热点问题挖掘方法,其特征在于,结合留言数据的评价,计算留言数据的热度包括:提取问题的点赞数和反对数,用点赞数和反对数的总和加一来计算该问题的热度。

7.一种采用权利要求1‑6任一项所述方法的基于机器学习的政务文本分类及热点问题挖掘系统,其特征在于,包括:数据获取模块,被配置为获取多条训练政务文本数据及相应标签;

字典构建模块,被配置为构建编码字典;所述编码字典中包括训练政务文本数据中的每个字及相应编码;

向量表示模块,被配置为基于编码字典得到所述多条训练政务文本数据的向量表示;

对标签数据进行编码,得到各标签的向量表示;

模型训练模块,被配置为根据文本数据及相应标签的向量表示,采用机器学习模型训练政务文本分类模型;所述政务文本分类模型用于政务文本分类。

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑6任一项所述的基于机器学习的政务文本分类及热点问题挖掘方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑6任一项所述的基于机器学习的政务文本分类及热点问题挖掘方法。