利索能及
我要发布
收藏
专利号: 2020106680108
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种混合粒度多视图新闻数据聚类方法,其特征在于,包括:

S1:实时获取原始的混合粒度多视图新闻数据,采用TF-IDF方法对原始的混合粒度多视图新闻数据进行特征选择,得到统一标签粒度的多视图新闻数据;

S2:计算统一标签粒度的多视图新闻数据的TF-IDF值,根据该值对统一标签粒度的多视图新闻数据进行映射,得到各个视图的特征向量空间;

S3:根据特征向量空间计算各个视图的信息熵,根据信息熵计算各个视图的权重;

S4:根据各个视图的权重对特征向量空间中各维度的值进行加权融合,得到各视图的特征矩阵;

S5:采用多视图K-means算法对融合后的特征矩阵进行聚类,得到新闻聚类结果;

S6:根据新闻聚类结果对新闻进行推荐。

2.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述得到统一标签粒度的多视图新闻数据的过程包括:S11:对混合粒度多视图新闻数据进行预处理,通过TfidfVectorizer方法获得原始的混合粒度多视图新闻数据的特征向量空间;

S12:计算原始的混合粒度多视图新闻数据的特征向量空间的TF-IDF值;

S13:设置特征选择数量n_features;

S14:根据TF-IDF值的大小确定特征的重要程度,提取TF-IDF值前n_features个样本特征,采用TfidfVectorizer方法对样本特征进行处理,得到特征选择后的特征向量空间;

S15:采用K-means算法对特征选择后的特征向量空间进行聚类;

S16:选取聚类效果最优时所对应的特征作为各视图的标签,得到统一标签粒度的多视图新闻数据。

3.根据权利要求2所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述特征选择数量n_features的取值范围为[5,50],步长为5。

4.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述计算统一标签粒度的多视图新闻数据的TF-IDF值的公式为:其中,f(w)表示词条w的TF-IDF值,w表示词条的关键字,TF(w)表示词条w在文本中出现的频率,IDF(w)表示逆向文件频率(Inverse Document Frequency),N表示总文档数目,n(w)表示包含w的文档数目。

5.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,计算信息熵的公式为:其中,H(X)表示信息熵,n是随机变量X的取值类别总数,P(x)表示事件x发生的概率。

6.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述根据信息熵计算各个视图的权重的过程包括:步骤1:根据统一标签粒度的多视图新闻数据的特征向量空间设置超参数λ和最大迭代次数;

步骤2:初始化各个视图的权重,随机选取k个样本数据作为初始化的聚类簇中心,设置当前迭代次数为0;

步骤3:根据初始化的簇中心得到聚类指示矩阵;即当簇中心样本i是属于第k个簇,则聚类指示矩阵第i行的第k列元素值为1,其余元素均为0;

步骤4:将视图v的权重w(v)看作随机变量,采用信息熵衡量w(v)的不确定性程度,在多视(v) (v)图k-means目标函数的基础上,将w ln w 引入到多视图k-均值目标函数中,采用拉格朗日极值求解策略对目标函数进行求解,得到各个视图的加权项;

步骤5:根据各个视图的初始权重以及加权项对各个视图的特征空间向量进行加权融合,采用k-均值算法对融合后的数据进行处理,得到新的聚类中心和聚类指示矩阵;

步骤6:根据新的聚类中心、聚类指示矩阵以及超参数更新各个视图的权重,同时当前迭代次数加1;

步骤7:判断当前迭代次数是否大于最大迭代次数,若大于,则获得最终的权重,否则返回步骤4。

7.根据权利要求6所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述得到各个视图的加权项的过程包括:其中,f(w(v))表示加权项,V表示视图的数量,w(v)ln w(v)表示用熵来描述视图v的权重的不确定性程度。

8.根据权利要求6所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,更新视图的权重的公式为:其中,w(v)表示视图的权重,e表示数学常数,是自然对数函数的底数,K表示聚类中心的个数,N表示样本数量, 表示视图v的第i个样本, 表示视图v的第k个簇中心,λ表示控制视图权重的超参数,V表示视图的个数,Uik指示着样本i是否属于簇k。

9.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述对特征向量空间中各维度的值进行加权融合的公式为:其中,S(U,V,X,W)表示目标函数,U表示聚类指示矩阵,X表示样本数据,W表示视图权重,w(v)表示视图v的权重,V表示视图的数量,K表示聚类簇的个数,N表示样本数量,Uik指示着样本i是否属于簇k, 表示视图v的第i个样本, 表示视图v的第k个簇中心,λ表示控制视图权重的超参数,w(v)ln w(v)表示视图v的权重的信息熵。

10.根据权利要求1所述的一种混合粒度多视图新闻数据聚类方法,其特征在于,所述对融合后的特征矩阵进行聚类的公式为:其中,F表示目标函数,w(v)表示视图v的权重,V表示视图的数量,K表示聚类簇中心的数量,N表示样本数量,Uik表示各个视图共享的聚类指示矩阵, 表示视图v的第i个样本,表示视图v的簇中心。