1.一种基于转发关系的微博聚类方法其特征在于,所述方法包含如下步骤:步骤1:提取微博文本中的hashtag信息;
步骤2:使用ICTCLAS分词系统对微博文本和标签进行分词,并去除非实词和停用词;
步骤3:基于本文的特征权重的计算方法,计算词项的权重;
步骤4:基于微博的转发关系,构造转发关系矩阵;
步骤5:基于转发关系构造聚类的初始簇;
步骤6:基于初始簇,使用基于最大最小距离和SSE的自适应聚类算法,并使用余弦距离度量文本间的相似度,进行聚类;
步骤7:输出聚类的结果。
2.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤3中是特征权重的计算方法是根据公式(1)(2)(3)计算得到的,其中公式(2)中的常量λ是在大量的实验后根据经验的到的。
3.根据权利要求2所述的一种基于转发关系的微博聚类方法,其特征在于:所述公式(1)、(2)、(3)包括:所述的公式(2)为:
所述的公式(3)为:weighij=ht_weighij×wij (3)。
4.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤4中构造转发关系矩阵,是基于每个转发关系生成一个转发关系邻接矩阵。
5.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤5中构造聚类初始簇,是基于图的广度优先遍历,将同一转发链中的微博放入转发簇中。
6.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤6中的基于最大最小距离和SSE的自适应聚类算法的初始点是基于每个初始簇的中心,计算出它们的最大最小距离得到的。