利索能及
我要发布
收藏
专利号: 2019111168691
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种短文本主题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;

A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;

A3、基于所述主题词在短文本下所占权重,选取焦点主题;

其中,所述主题识别模型的预训练包括以下步骤:S1、获取短文本,构建短文本集合D;

S2、确定所述短文本集合D中的主题个数K;

S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。

2.如权利要求1所述的短文本主题识别方法,其特征在于,所述S1具体包括:获取n条短文本构成的短文本集合D,记为 |M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量 表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。

3.如权利要求2所述的短文本主题识别方法,其特征在于,所述S3具体包括:S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布 和背景词分布式(1)中:β和β'是狄利克雷分布的超参数;

S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数 生成主题分布式(2)中:

bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;

πm服从参数为ε0,ε1的Beta分布,πm与 构成Beta-Multinomial共轭;

Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;

表示短文本m对应的焦点主题分布,服从参数为的狄利克雷分布;

α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;

S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;

式(4)中:

服从参数为γ,γ'的Beta分布,用于选择主题词分布, 与 构成Beta-Multinomial共轭;

cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;

式(5)中:

当cmn=1时,表示短文本m是从主题词分布中生成词n的;

当cmn=0时,表示短文本m是从背景词分布中生成词n的;

式(4)中:

zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;

当cmn=1时,从短文本主题分布 生成主题zmn,之后通过主题词分布 生成词wmn;

当cmn=0时,从背景主题词分布 生成词wmn。

4.如权利要求1所述的短文本主题识别方法,其特征在于,所述A1包括:A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法对待测短文本集合中的bm,k、Zmn、Cmn进行抽样;

A10101、基于贝叶斯法则与共轭先验获取πm和 的联合概率分布,计算每篇短文本中的焦点主题情况bm,k,如式(6):式(6)中:

I[·]是指标函数;

Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量;

是n条短文本构成的短文本集合m中对应的主题集合;

是指短文本m中对应主题k的词的数量;

对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛;

式(7)中,

表示主题选择器b分配给短文本集合m的次数;

Γ(x)为伽马函数;

A10102、得到的每篇短文本中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):式(8)中:

Z-(mn)表示除单词wmn外所有单词对应的主题;

表示当cmn=1时,单词v被分配到主题k上的次数;

表示当cmn=1时,被分配到主题k上的所有单词数;

表示短文本集合m中被分配到主题k上的单词数;

所有带有公式-(mn)的计数均表示去除了单词wmn;

A10103、对待测短文本集合中的Cmn进行抽样,如式(9):式(9)中:

表示所有由背景主题词分布生成的单词数;

表示所有由主题词分布生成的单词书;

表示背景主题词分布生成单词v的次数;

表示背景主题词分布生成所有词的次数;

A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;

A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值。

A104、重复步骤A103,完成短文本集合中所有短文本和所述主题的更新。

5.如权利要求4所述的短文本主题识别方法,其特征在于,所述A2具体包括:根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):式中:

表示当cmn=1时,单词v被分配到主题k上的次数;

表示当cmn=1时,被分配到主题k上的所有单词数;

表示背景主题词分布生成单词v的次数;

表示背景主题词分布生成所有词的次数;

β和β'是分布的超参数;

Nm表示第m条短文本中的单词数;

v∈{1,2,...,V}作为不同词的索引;

α0与α1为分布的超参数;

K表示待测短文本集合中的主题个数;

|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;

表示短文本集合m中被分配到主题k上的单词数;

bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;

θmk表示主题k在第m条短文本中所占权重;

φkv表示主题词v在该主题下所有词中作占权重;

φv'表示背景词v在所有背景词中所占比重。

6.如权利要求5所述的短文本主题识别方法,其特征在于,所述A3具体包括:对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定。

7.一种短文本主题识别系统,其特征在于,所述系统包括计算机,所述计算机包括:至少一个存储单元;

至少一个处理单元;

其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;

A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;

A3、基于所述主题词在短文本下所占权重,选取焦点主题;

其中,所述主题识别模型的预训练包括以下步骤:S1、获取短文本,构建短文本集合D;

S2、确定所述短文本集合D中的主题个数K;

S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。

8.如权利要求7所述的短文本主题识别系统,其特征在于,所述S1具体包括:获取n条短文本构成的短文本集合D,记为 |M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量 表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。

9.如权利要求8所述的短文本主题识别系统,其特征在于,所述S3具体包括:S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布 和背景词分布式(1)中:β和β'是狄利克雷分布的超参数;

S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数 生成主题分布式(2)中:

bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;

πm服从参数为ε0,ε1的Beta分布,πm与 构成Beta-Multinomial共轭;

Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;

表示短文本m对应的焦点主题分布,服从参数为的狄利克雷分布;

α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;

S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;

式(4)中:

服从参数为γ,γ'的Beta分布,用于选择主题词分布, 与 构成Beta-Multinomial共轭;

cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;

式(5)中:

当cmn=1时,表示短文本m是从主题词分布中生成词n的;

当cmn=0时,表示短文本m是从背景词分布中生成词n的;

式(4)中:

zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;

当cmn=1时,从短文本主题分布 生成主题zmn,之后通过主题词分布 生成词wmn;

当cmn=0时,从背景主题词分布 生成词wmn。