买专利、卖专利、专利购买、专利交易、专利出售、高企申报-文本主题挖掘方法、装置、计算机设备及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

文本主题挖掘方法、装置、计算机设备及存储介质

面议

专利号： 202110121076X

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种文本主题挖掘方法，其特征在于，所述方法包括：响应于用户在显示的界面上输入的文本簇的目标数量，所述文本簇的目标数量为用户希望将多个文本聚为类的数量，根据所述目标数量调整高斯核函数的宽度参数得到目标宽度参数，根据所述目标宽度参数得到目标高斯核函数，使用所述目标高斯核函数基于所述多个文本的文本向量计算得到相似矩阵；

基于所述相似矩阵对所述多个文本进行谱聚类，得到多个文本簇，包括：基于所述相似矩阵S构造邻接矩阵W与度矩阵D；根据所述邻接矩阵和所述度矩阵计算得到拉普拉斯矩阵L‑1/2 ‑1/2

＝D‑W；将所述拉普拉斯矩阵进行标准化处理后得到D LD ；计算标准化处理后的拉普拉斯矩阵的多个特征值及每个特征值对应的特征向量；获取所述多个特征值中的最小K个特征值及所述最小K个特征值对应的特征向量；采用k‑means聚类算法对所述最小K个特征值对应的特征向量进行聚类；使用混合高斯模型对聚类得到的多个质心点进行聚类，得到多个文本簇；

提取每个文本簇的主题关键词；

计算每个文本簇中每个文本的阅读次数，并基于所述每个文本的阅读次数计算对应的文本簇的主题关键词的阅读次数；

根据每个文本簇的主题关键词的阅读次数挖掘得到文本主题。

2.如权利要求1所述的文本主题挖掘方法，其特征在于，所述多个文本的文本向量的计算过程包括：

对每个文本进行分词，得到每个文本的分词向量；

使用所述多个文本的分词向量训练doc2vec模型；

使用训练完成的doc2vec模型提取所述多个文本的文本向量。

3.如权利要求2所述的文本主题挖掘方法，其特征在于，所述度矩阵为对角矩阵，所述对角矩阵主对角线的值代表每个文本的度，所述每个文本的度定义为与所述文本相连的所有边的权重之和。

4.如权利要求3所述的文本主题挖掘方法，其特征在于，所述提取每个文本簇的主题关键词包括：

使用主题模型提取每个文本簇的多个主题；

根据每个主题的概率对所述多个主题进行倒序排序；

获取倒序排序后的多个主题中前预设数量的目标主题；

将所述目标主题对应的关键词作为对应文本簇的主题关键词。

5.如权利要求3所述的文本主题挖掘方法，其特征在于，所述基于所述每个文本的阅读次数计算对应的文本簇的主题关键词的阅读次数包括：针对每个文本簇，获取包含所述文本簇的每个主题关键词的目标文本；

根据每个主题关键词的目标文本的阅读次数进行加权求和得到所述主题关键词的阅读次数。

6.一种文本主题挖掘装置，其特征在于，所述装置包括：相似计算模块，用于响应于用户在显示的界面上输入的文本簇的目标数量，所述文本簇的目标数量为用户希望将多个文本聚为类的数量，根据所述目标数量调整高斯核函数的宽度参数得到目标宽度参数，根据所述目标宽度参数得到目标高斯核函数，使用所述目标高斯核函数基于所述多个文本的文本向量计算得到相似矩阵；

文本聚类模块，用于基于所述相似矩阵对所述多个文本进行谱聚类，得到多个文本簇，包括：基于所述相似矩阵S构造邻接矩阵W与度矩阵D；根据所述邻接矩阵和所述度矩阵计算‑1/2 ‑1/2

得到拉普拉斯矩阵L＝D‑W；将所述拉普拉斯矩阵进行标准化处理后得到D LD ；计算标准化处理后的拉普拉斯矩阵的多个特征值及每个特征值对应的特征向量；获取所述多个特征值中的最小K个特征值及所述最小K个特征值对应的特征向量；采用k‑means聚类算法对所述最小K个特征值对应的特征向量进行聚类；使用混合高斯模型对聚类得到的多个质心点进行聚类，得到多个文本簇；

主题提取模块，用于提取每个文本簇的主题关键词；

次数计算模块，用于计算每个文本簇中每个文本的阅读次数，并基于所述每个文本的阅读次数计算对应的文本簇的主题关键词的阅读次数；

主题挖掘模块，用于根据每个文本簇的主题关键词的阅读次数挖掘得到文本主题。

7.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述的文本主题挖掘方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的文本主题挖掘方法。