买专利、卖专利、专利购买、专利交易、专利出售、高企申报-短文本聚类方法及终端设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

短文本聚类方法及终端设备

￥23800

专利号： 2019100278518

申请人：河北工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种短文本聚类方法，其特征在于，包括：

对短文本集进行预处理，获得所述短文本集中的所有文本；

根据所述所有文本，计算所述所有文本与其它文本的相似度；

根据所述所有文本与其它文本的相似度，确定所述所有文本的聚类中心，包括：将计算获得的所述所有文本中的第一文本与其它文本的相似度按照相似度从大到小进行排序；计算相似度排序中第(N‑1)项与第N项相邻两项的梯度值，所述N大于1；计算相似度排序中前N项的梯度平均值；判断所述梯度值是否大于所述梯度平均值；当所述梯度值大于所述梯度平均值时，确定所述第N项为跃迁点；计算所述跃迁点与所述相似度排序中相似度最大项之间的项数；根据上述计算所述第一文本的所述跃迁点包含的项数，计算所述所有文本的跃迁点包含的项数，并确定所述所有文本的聚类中心；

根据所述聚类中心，对所述所有文本进行聚类处理。

2.如权利要求1所述的短文本聚类方法，其特征在于，所述根据所述所有文本，计算所述所有文本与其它文本的相似度，包括：通过TF‑IDF算法计算所述所有文本的权值；

根据所述所有文本的权值，计算所述所有文本中的第一文本与其它文本的相似度；

按照计算所述第一文本与其它文本的相似度的方法，计算所述所有文本与其它文本的相似度。

3.如权利要求2所述的短文本聚类方法，其特征在于，在所述计算所述所有文本与其它文本的相似度之后，还包括：根据计算的所述所有文本与其它文本的相似度，构造所述所有文本与其它文本的相似度的特征项矩阵。

4.如权利要求3所述的短文本聚类方法，其特征在于，所述根据所述所有文本的权值，计算所述所有文本中的第一文本与其它文本的相似度，包括：根据计算所述第一文本与其它文本的相

似度，其中，所述Ci表示所述第一文本，所述Cj表示所述其它文本。

5.如权利要求1‑4中任一项所述的短文本聚类方法，其特征在于，所述确定所述所有文本的聚类中心，包括：比较所述所有文本的跃迁点包含的项数；

确定所述所有文本的跃迁点包含的项数中项数最多的文本为第一聚类中心；

删除所述第一聚类中心及与所述第一聚类中心相关的点；

根据确定所述第一聚类中心的方法确定所述所有文本中包含的聚类中心。

6.如权利要求1‑4中任一项所述的短文本聚类方法，其特征在于，所述计算相似度排序中第(N‑1)项与第N项相邻两项的梯度值，包括：根据gra_ViN＝|similarity_d(Ci,CN‑1)‑similarity_d(Ci,CN)|，或者根据gra_ViN＝|similarity_d(Ci,CN)‑similarity_d(Ci,CN‑1)|，计算排序中第(N‑1)项与第N项相邻两项的梯度值；其中，所述i表示计算的是第i个样本的值，所述gra_ViN表示所述第i个文本的第N梯度值，所述similarity_d(Ci,CN‑1)表示所述第i个文本与第(N‑1)个文本的相似度，所述similarity_d(Ci,CN)表示所述第i个样本与第N个文本的相似度；

所述计算相似度排序中前N项的梯度平均值，包括：

根据或者根

据计算排序中

前(N‑1)项的梯度平均值；其中，所述gra_Ave_i表示所述第i个样本的梯度平均值，所述j小于等于所述(N‑1)。

7.一种短文本聚类装置，其特征在于，包括：

预处理模块，用于对短文本集进行预处理，获得所述短文本集中的所有文本；

计算模块，用于根据所述所有文本，计算所述所有文本与其它文本的相似度；

确定模块，用于根据所述所有文本与其它文本的相似度，确定所述所有文本的聚类中心；所述确定模块，用于将计算获得的所述所有文本中的第一文本与其它文本的相似度按照相似度从大到小进行排序；计算相似度排序中第(N‑1)项与第N项相邻两项的梯度值，所述N大于1；计算相似度排序中前N项的梯度平均值；判断所述梯度值是否大于所述梯度平均值；当所述梯度值大于所述梯度平均值时，确定所述第N项为跃迁点；计算所述跃迁点与所述相似度排序中相似度最大项之间的项数；根据上述计算所述第一文本的所述跃迁点包含的项数，计算所述所有文本的跃迁点包含的项数，并确定所述所有文本的聚类中心；

聚类处理模块，用于根据所述聚类中心，对所述所有文本进行聚类处理。

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。