利索能及
我要发布
收藏
专利号: 2022108148393
申请人: 江南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多视图的新闻主题挖掘方法,其特征在于,所述方法包括:(1) (2) (V) (v) (v) (v)步骤一:将多视图新闻数据矩阵A ,A ,…,A 分解成矩阵A F 和矩阵S ,即:(v) (v) (v) (v)A =A F +S ,v=1,2,...,V(v) (v) (v) (v)其中,A F ,F 和S 分别表示第v个视图所对应的低秩部分,子空间表示部分和重(V) d×n构误差部分,A ∈R ,d表示新闻数据中样本的维数,n表示新闻数据的个数,V表示视图的个数;

(v)

步骤二:根据各单视图的子空间表示部分F 构造一个N阶张量(1) (2) (V)

F=Ψ(F ,F ,...,F )(v)

其中,Ψ(·)表示通过对不同视图的子空间表示矩阵F 进行合并之后构造N阶张量F;

将N阶张量F在第n个模式上展开,得到矩阵F(n),表达式为:其中,In表示矩阵F(n)的维数;

步骤三:计算N阶张量F的核范数,公式为:其中,‖·‖*表示张量的核范数,ζn是一个大于0的常数,且满足步骤四:构建低秩张量约束的多视图子空间聚类LT‑MSC模型:(1) (2) (V)

其中,S=[S ;S ;...;S ]表示将各个视图的重构误差矩阵拼接在一起形成的矩阵,‖·‖2,1表示矩阵的L2,1范数;

步骤五:计算各个视图的超图拉普拉斯矩阵步骤六:构建流形正则化项 其中,tr(·)表示矩阵的迹;

T

步骤七:构建稀疏约束项||FF||1;其中,‖·‖1表示矩阵的L1范数;

步骤八:构建多样性正则化项

步骤九:基于所述多视图子空间聚类LT‑MSC模型、所述流形正则化项T

稀疏约束项||FF||1、多样性正则化项 构建基于多视图的新闻主题挖掘模型,模型的表达式为:其中,λ1,λ2,λ3和λ4为平衡参数;

步骤十:更新变量μ,更新公式为:μ=min(ρμ,μmax)其中,ρ表示给定的正惩罚参数,μ表示大于0的惩罚参数;

(v)

步骤十一:更新子空间表示矩阵F 、重构误差矩阵S、辅助变量Gn、所述拉格朗日乘子Bv、所述N阶张量F的向量化f、所述辅助变量Gn的向量化gn和拉格朗日乘子αn,直到满足||A(v) v (v) (v)‑AF ‑S ||∞<ε,且||Pnf‑gn||∞<ε,其中,ε表示满足收敛条件时一个很小的正数;

(v)

其中,所述更新子空间表示矩阵F 的更新过程包括:根据公式 所述基于多视图的新闻主题挖掘模型进一步表示成如下形式:

(v) (v) (v) (v)s.t.A =A F +S ,v=1,2,...,V,(1) (2) (V)

F=Ψ(F ,F ,...,F ),(1) (2) (V)

S=[S ;S ;...;S ],(v)

diag(F )=0

其中,

通过使用增广拉格朗日乘子法ALM优化上述表示形式,采用ALM方法求解时,需要使目标函数可分离,因此,引入了辅助变量Gn来代替F(n),则有:s.t.Pnf=gn,n=1,2,...,N(v) (v) (v) (v)A =A F +S ,v=1,2,...,V,(1) (2) (V)

F=Ψ(F ,F ,...,F ),(1) (2) (V)

S=[S ;S ;...;S ],(v)

diag(F )=0

其中,f和gn分别是所述N阶张量F和所述辅助变量Gn的向量化,Pn是一个置换矩阵,用于校准F(n)和所述辅助变量Gn之间对应的元素;

通过使用ALM方法,所述基于多视图的新闻主题挖掘模型进一步表示如下:其中,αn和Bv是拉格朗日乘子,μ为平衡参数,Lμ>0表示所述基于多视图的新闻主题挖掘模型的增广拉格朗日函数;

(v) (v)

当所述各个视图的重构误差S 和辅助变量Gn被固定时,所述子空间表示矩阵F 的更新公式为:v

其中,Ω (·)表示选择与第v个视图相对应的元素,之后再将这些元素重新构造成矩阵,I1表示全1的矩阵;

进一步得到更新后的子空间表示矩阵 如下:其中,

步骤十二:计算相似度矩阵

步骤十三:根据所述步骤十二获得的相似度矩阵,利用谱聚类方法进行新闻主题的分类,并输出最终的分类结果。

2.根据权利要求1所述的方法,其特征在于,所述步骤五中计算各视图的超图拉普拉斯矩阵的公式为:|C|×|T|

其中,DC是一个对角矩阵,其对角线上的元素为每个顶点的度;HG∈R 表示超图的关联矩阵,用于表示各顶点和超边之间的关系;W表示各超边权重的集合;DT表示超边度的对角矩阵。

3.根据权利要求2所述的方法,其特征在于,所述步骤六中的构建流形正则化项的过程包括:所述流形正则化为超图正则化,超图G=(C,T,W)由顶点的集合C,超边的集合T和各超边权重的集合W构成;每一条超边t都被赋予了一个正的权重w(t),权重矩阵W中的元素与每条超边t有关,T和C满足Ut∈T=C,U表示求并集的运算;

|C|×|T|

所述超图G的关联矩阵HG∈R 用于表示各顶点和超边之间的关系,关联矩阵的组成元素表达式如下:其中, 表示各超边的度,c表示顶点;

所述流形正则化项为

4.根据权利要求3所述的方法,其特征在于,所述步骤九中构建多样性正则化项的过程包括:其中, H表示均值为0的矩阵。

5.根据权利要求4所述的方法,其特征在于,所述更新重构误差矩阵S的过程包括:(v)

当所述单视图的子空间表示矩阵F 和所述辅助变量Gn被固定时,可以得到所述重构误差矩阵S的更新公式如下:(v) (v) (v) (v)其中,Z是由矩阵A ‑A F +B 沿其列垂直连接所构成的矩阵,求出式上式的解如下所示:其中,Z:,i表示矩阵Z的第i列。

6.根据权利要求5所述的方法,其特征在于,所述辅助变量Gn的迭代更新公式如下:其中, Ωn(Pnf+an)是根据展开的第n个模式将Pnf+an重塑为相应的矩阵,表示矩阵的谱软阈值运算。

7.根据权利要求6所述的方法,其特征在于,所述拉格朗日乘子Bv的更新公式如下:

8.根据权利要求7所述的方法,其特征在于,所述张量F的向量化f的更新方法为:直接(v) * (v)替换更新后的F 中相应的元素来更新f,即f←F 。

9.根据权利要求8所述的方法,其特征在于,所述拉格朗日乘子αn的更新规则如下:

10.一种基于多视图的新闻主题挖掘系统,其特征在于,所述系统包括:数据获取模块,用于获取新闻数据;

数据分类模块,用于根据所述新闻数据,利用权利要求1‑9任一项所述的一种基于多视图的新闻主题挖掘方法进行新闻主题的分类;

输出显示模块,用于输出新闻主题的分类结果。