1.一种短文本聚类方法,其特征在于,包括:
对短文本集进行预处理,获得所述短文本集中的所有文本;
根据所述所有文本,计算所述所有文本与其它文本的相似度;
根据所述所有文本与其它文本的相似度,确定所述所有文本的聚类中心;
根据所述聚类中心,对所述所有文本进行聚类处理。
2.如权利要求1所述的短文本聚类方法,其特征在于,所述根据所述所有文本,计算所述所有文本与其它文本的相似度,包括:通过TF-IDF算法计算所述所有文本的权值;
根据所述所有文本的权值,计算所述所有文本中的第一文本与其它文本的相似度;
按照计算所述第一文本与其它文本的相似度的方法,计算所述所有文本与其它文本的相似度。
3.如权利要求2所述的短文本聚类方法,其特征在于,在所述计算所述所有文本与其它文本的相似度之后,还包括:根据计算的所述所有文本与其它文本的相似度,构造所述所有文本与其它文本的相似度的特征项矩阵。
4.如权利要求3所述的短文本聚类方法,其特征在于,所述根据所述所有文本的权值,计算所述所有文本中的第一文本与其它文本的相似度,包括:根据 计算所述第一文本与其它文本的相
似度,其中,所述Ci表示所述第一文本,所述Cj表示所述其它文本。
5.如权利要求1至4中任一项所述的短文本聚类方法,其特征在于,所述根据所述所有文本与其它文本的相似度,确定所述所有文本的聚类中心,包括:将计算获得的所述第一文本与其它文本的相似度按照相似度从大到小进行排序;
计算相似度排序中第(N-1)项与第N项相邻两项的梯度值,所述N大于1;
计算相似度排序中前N项的梯度平均值;
判断所述梯度值是否大于所述梯度平均值;
当所述梯度值大于所述梯度平均值时,确定所述第N项为跃迁点;
计算所述跃迁点与所述相似度排序中相似度最大项之间的项数;
根据上述计算所述第一文本的所述跃迁点包含的项数,计算所述所有文本的跃迁点包含的项数,并确定所述所有文本的聚类中心。
6.如权利要求5所述的短文本聚类方法,其特征在于,所述确定所述所有文本的聚类中心,包括:比较所述所有文本的跃迁点包含的项数;
确定所述所有文本的跃迁点包含的项数中项数最多的文本为第一聚类中心;
删除所述第一聚类中心及与所述第一聚类中心相关的点;
根据确定所述第一聚类中心的方法确定所述所有文本中包含的聚类中心。
7.如权利要求5所述的短文本聚类方法,其特征在于,所述计算相似度排序中第(N-1)项与第N项相邻两项的梯度值,包括:根据gra_ViN=|similarity_d(Ci,CN-1)-similarity_d(Ci,CN)|,或者根据gra_ViN=|similarity_d(Ci,CN)-similarity_d(Ci,CN-1)|,计算排序中第(N-1)项与第N项相邻两项的梯度值;其中,所述i表示计算的是第i个样本的值,所述gra_ViN表示所述第i个文本的第N梯度值,所述similarity_d(Ci,CN-1)表示所述第i个文本与第(N-1)个文本的相似度,所述similarity_d(Ci,CN)表示所述第i个样本与第N个文本的相似度;
所述计算相似度排序中前N项的梯度平均值,包括:根据 或者根
据 计算排序中前
(N-1)项的梯度平均值;其中,所述gra_Ave_i表示所述第i个样本的梯度平均值,所述j小于等于所述(N-1)。
8.一种短文本聚类装置,其特征在于,包括:
预处理模块,用于对短文本集进行预处理,获得所述短文本集中的所有文本;
计算模块,用于根据所述所有文本,计算所述所有文本与其它文本的相似度;
确定模块,用于根据所述所有文本与其它文本的相似度,确定所述所有文本的聚类中心;
聚类处理模块,用于根据所述聚类中心,对所述所有文本进行聚类处理。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。