利索能及
我要发布
收藏
专利号: 2020100270504
申请人: 深圳信息职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种情境感知的深度学习算法,其特征在于,包括以下步骤:(1)将文档表示为若干主题的随机组合,每个主题又表示为若干词条的概率分布,给定文档集 其中di(i=1,2,…,N)为若干词条组成的文档,假设主题集词条集 则LDA主题模型中的“文本‑主题”概率分

布θd和“主题‑词条”概率分布 分别满足以α和β为超参数的Dirichlet分布,如式(1)和式(2)所示:其中,Γ(·)为Gamma函数,θd,j表示主题tj在文档d中的概率分布,且满足表示词条wk在主题tj中的概率分布,且满足文档集 中的每篇文档定义了基本的主题生成过程,分为以下步骤:(i)对于每一篇文档di(i=1,2,…,N),生成L个主题的概率分布θd=(θd,1,θd,2,…,θd,L),使得θd~P(·|α);

(ii)对于每一个主题ti(i=1,2,…,L) ,生成K个词条的概率分布使得

(iii)重复遍历文档di中的每一个词条wk(k=1,2,…,K),生成主题ti(i=1,2,…,L)的概率分布,以及词条wk(k=1,2,…,K)的概率分布;

在此基础上,利用Gibbs采样算法,分别求得“文本‑主题”概率θd,j和“主题‑词条”概率如式(3)和式(4)所示:其中, 表示词条w被分配给主题tj的频数, 表示文档d分配给主题tj的词条数;

由此分别得到“文本‑主题”概率矩阵和“主题‑词条”概率矩阵;

(2)利用LDA得到每个主题中对应的敏感词出现的概率,然后对训练数据进行多种方式的权重分配,分别记为Wbase、Wpartial和Wtotal:三种权重分配方式分别为:

(i)Wbase:把敏感词出现的概率值都相应的扩大100倍,然后向下取整,把该值作为含有敏感词的句子采样的倍数,Wbase加权的数据集可以表示为:其中 表示敏感词在“主题‑词条”概率分布中

的概率,SWT表示主题中含有敏感词的句子, 表示原始数据集;

(ii)Wpartial:按敏感词在该主题的所有词汇中所占的比例进行加权,敏感词在其主题中出现的概率可以表示为: 其中分子表示敏感词在该主题出现的次数,分母表示该主题包含的所有词汇之和,Wpartial:加权数据集可以表示为 其中SWT表示主题中含有敏感词的句子;

(iii)Wtotal:依据该敏感词占文挡d中所有词汇的比例进行加权,敏感词在其文档d中出现的概率可以表示为: 其中分子表示敏感词在该文档d中出现的次数,分母表示文档的所有词汇之和,Wtotal:加权数据集可以表示为 其中SWT表示主题中含有敏感词的句子;

(3)在得到Wbase、Wpartial和Wtotal三种数据集之后便可构建三种加权的CAN‑LSTM模型,将其送入LSTM网络中学习,反复迭代,直至收敛,得到认知情感识别模型 即可对测试数据集进行预测。