利索能及
我要发布
收藏
专利号: 2021114981436
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融入句法结构信息的主题挖掘方法,其特征在于,包括以下步骤:获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;

将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP‑BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;

给出具体的主题分布结果和主题下词语的分布结果。

2.根据权利要求1所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述社交文本数据集的二元词汇关系信息具体包括:|B|个二元词关系的期望值和L个词语;其中上述二元关系期望值包含两个单词和一个关系期望值,期望值由句法结构信息树包含的二元关系计算所得,其词语是由待挖掘的短文本中出现的单词构成的,句法结构信息树由依存句法工具分析实现,|B|、L为正整数;当得到待主题挖掘的短文本时,计算其中出现的二元词汇关系期望值。

3.根据权利要求2所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述利用依存句法分析工具获得句子中出现的依存关系,具体包括:S11、一个短文本di中包含多个句子S,以句子为单位进行分割,对句子进行分词操作获得单词集合W,为单词进行词性标注,并使用依存算法工具获得单词之间存在的句法结构信息;句法结构信息中包含有多个由中心词words、从属词wordd和关系r组成的三元组合,筛选剔除掉其中words、wordd均是同一词的组合;

S12将节点中在句法结构信息中仅有做为中心词出现的单词节点挂载到Root节点下,生成句法结构信息树;

S13统计句法结构信息树中出现的二元关系,分别为:亲子关系,兄弟关系,叔侄关系和无特殊关系;

S14在分别统计树中出现的二元关系之后,以短文本di为单位,将其包含的所有句子sj的句法结构信息树中统计的二元关系进行整合统计;

S15计算二元词汇b在文档di中的期望值;

S16重复S11‑S15步骤对所有文档d中的二元词汇b关系进行期望值计算;

S16根据S16的结果最后wordi和wordj在短文本数据集中D的期望值。

4.根据权利要求3所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述S15计算二元词汇b在文档di中的期望值,具体公式为:pk为b所涉及的单词words和worde单词之间关系k出现在文档di下的概率,其中 为步骤S13中叙述的四种二元关系在文档di出现次数的总和,当k依次取s,b,u,n时l依次取3,2,1,0,即亲子关系,兄弟关系,叔侄关系和无特殊关系对应的权重分配为(1+

3 2 1 0

γ) ,(1+γ) ,(1+γ) ,(1+γ) ;

其在文档di下二元词汇b的关系期望值为

5.根据权利要求4所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述述主题挖掘模型的采样公式为:

其中,P是主题为z时的后验概率分布,z是经过采样后二元词汇b=(wordi,wordj)所被分配的主题,wordi和wordi是建模过程中出现的单词, 是假设文本当中没有二元词汇b时的主题分布,其中X是文档集合D用二元词汇集合B表示的集合,B是文档中出现的b的集合,α和β是狄利克雷分布的超参数,γ是用于计算二元关系期望值的配比权重,Eb是二元词汇b的关系期望值, 是将主题Z分配给集合X时词汇wordj的采样次数,nb|z是将主题z分配给集合X时词汇wordj的采样次数,M是整个X中二元词汇出现的计数。

6.根据权利要求5所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述主题挖掘模型的主题的多项式分布参数θz和主题词的多项式分布参数 由nz, 计算所得,

Eb、K、 θz分别表示单词对b的期望值,主题的数量,主题z下的bitem的多项式分布,文集对应主题的多项式分布。

7.根据权利要求2所述的一种融入句法结构信息的主题挖掘方法,其特征在于,所述二元词汇关系信息,具体包括:|B|个三元结构,(wordi,wordj,Eb),wordi,wordj由原始文档D中分词得到,Eb为单词之间的关系期望值。

8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1‑7任一项所述的融入句法结构信息的主题挖掘方法。

9.一种融入句法结构信息的主题挖掘系统,其特征在于,包括:期望值计算模块:用于获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;

主题挖掘模块:用于将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布DP‑BTM模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;

分析模块:用于根据主题挖掘模型,分析出具体的主题分布结果和主题下词语的分布结果。