利索能及
我要发布
收藏
专利号: 2015103258908
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-28
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于转发关系的微博聚类方法其特征在于,所述方法包含如下步骤:步骤1:提取微博文本中的hashtag信息;

步骤2:使用ICTCLAS分词系统对微博文本和标签进行分词,并去除非实词和停用词;

步骤3:基于本文的特征权重的计算方法,计算词项的权重;

步骤4:基于微博的转发关系,构造转发关系矩阵;

步骤5:基于转发关系构造聚类的初始簇;

步骤6:基于初始簇,使用基于最大最小距离和SSE的自适应聚类算法,并使用余弦距离度量文本间的相似度,进行聚类;

步骤7:输出聚类的结果。

2.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤3中是特征权重的计算方法是根据公式(1)(2)(3)计算得到的,其中公式(2)中的常量λ是在大量的实验后根据经验的到的。

3.根据权利要求2所述的一种基于转发关系的微博聚类方法,其特征在于:所述公式(1)、(2)、(3)包括:所述的公式(2)为:

所述的公式(3)为:weighij=ht_weighij×wij (3)。

4.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤4中构造转发关系矩阵,是基于每个转发关系生成一个转发关系邻接矩阵。

5.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤5中构造聚类初始簇,是基于图的广度优先遍历,将同一转发链中的微博放入转发簇中。

6.根据权利要求1所述的一种基于转发关系的微博聚类方法,其特征在于:所述步骤6中的基于最大最小距离和SSE的自适应聚类算法的初始点是基于每个初始簇的中心,计算出它们的最大最小距离得到的。