利索能及
我要发布
收藏
专利号: 2022104293608
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,所述情感分析方法包括以下步骤:S10,对输入对话进行情感词嵌入操作,将其从人类语言转化成带有情感的向量表示;

S20,对步骤S10输入的每句话都按照依存句法关系构建句法依赖图,节点为话中的单词,将句法依赖图输入图卷积神经网络中更新节点信息,获得语义加强的单词向量以及相应的句子表征向量;

S30,根据步骤S20得到的语义加强的单词向量构建主题提取模型,提取每句对话的主题,获得主题增强的句子表征;

S40,将步骤S30得到的主题增强的句子表征作为初始节点,按照主题相似性进行聚类,根据句子主题信息以及时序关系构建对话子图,构建异构对话图,节点为每句话的句子表征,使用图循环网络更新图节点;

S50,将步骤S40获得的图节点输入到分类器中得到分类结果,即情绪类别。

2.根据权利要求1所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,步骤S10中,所述对输入对话进行情感词嵌入操作,将其从人类语言转化成带有情感的向量表示的过程包括以下子步骤:S11,令输入为一段包含N轮对话的多会话者对话文本D:

其中ui表示对话文本D中第i个话语, 表示话语ui对应的说话者,ui={wi,1,wi,2,...,wi,n}表示该句话有n个单词组成,i=1,2,…N,j=1,2,…M;M为会话者总数;N为对话总句数;

对输入的每句话ui,使用word2vec按照时间顺序进行向量编码,获得每个单词的基本向量表示word2vec(wi);

S12,从外部情感词典VAD获得每个单词的情感向量表示,采用下述公式将单词映射到情感词典:其中,l(w)表示每个单词的词形还原;当某一词语具有实际情感意义时,词语情感向量W2AV在VAD每一维度上都有对应的实数值,反之,当词语不具备情感意义时,该词语的情感向量一律表示为[5,1,5],这三个值分别表示极弱的情感适应度V、中等的情感强度A、极弱的情感重要性D;

S13,将步骤S12获得的词语w的情感词嵌入W2AV与步骤S11获得的基础word2vec词向量i串联合并,得到最终的词向量表示 将wi 作为编码器的初

始输入,称为情感词嵌入。

3.根据权利要求2所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,步骤S20中,对步骤S10输入的每句话都按照依存句法关系构建句法依赖图,节点为话中的单词,将句法依赖图输入图卷积神经网络中更新节点信息,获得语义加强的单词向量以及相应的句子表征向量的过程包括以下子步骤:S21,对步骤S10的输入语句构建句法依赖树,通过分析单词之间的依存关系,对每一句′ui构建一个关系树,表示句子的句法结构,原始节点为步骤S10得到的词向量表示wi,句子的核心动词为树的根节点,表示为中心词,根节点允许支配其它成分,且其本身不受其它任何成分的支配;

S22,按照语法规则寻找与中心词有依存关系的依赖词,按照中心词与依赖词的时序顺序区别树的左右节点将依赖词纳入树中,直到检测完所有单词,完成句法依赖图;

S23,将句法依赖图输入图卷积神经网络中更新节点信息,获得语义加强的单词向量:w"i=GRU(w′1,w′2,...,w′n);

通过计算单词的均值获得每句话的句子表征向量vi。

4.根据权利要求3所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,步骤S22中,按照语法规则寻找与中心词有依存关系的依赖词,按照中心词与依赖词的时序顺序区别树的左右节点将依赖词纳入树中,直到检测完所有单词,完成句法依赖图的过程包括以下子步骤:S221,使用栈和一个含有待处理词的队列构建句法依赖图;对栈和队列进行初始化,清空栈,初始状态栈里只有一个根节点;将句子中的所有词导入队列;

S222,根据当前状态使用Oracle函数选择并执行相应的操作类型,操作类型包括三种:当栈顶和它下面的词构成依存关系,并且中心词是栈顶元素时,将这两个词从栈中弹出,将这个依存关系加入到已分析的数据结构里,最后把中心词再加到栈中;

当栈顶和它下面的词构成依存关系,中心词是下面的元素时,将这两个词从栈中弹出,将这个依存关系加入到已分析的数据结构里,最后把中心词再加到栈中;

否则,将队列中的一个词加入到栈顶;

S223,循环步骤S222,直至栈中只有根节点,队列也为空。

5.根据权利要求1所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,步骤S30中,根据步骤S20得到的语义加强的单词向量构建主题提取模型,提取每句对话的主题,获得主题增强的句子表征的过程包括以下步骤:S31,采用变分自编码器构成主题提取模块;将步骤S20得到的语义加强的单词向量w″i按照时序信息递归的输入主题提取模块中进行训练,其输出是该句话中讨论的主题的潜在向量;潜在向量通过一个重复出现的隐藏状态来约束单个对话的连贯主题,其后验近似值的变分分布为:其中hn‑1=fτ(zn‑1,w″n‑1),n>1; 和 均为全连接层,fτ()是一个循环单元,采用Transformer的多头注意机制,其输入的query是上一个隐变量zn‑1:式中, 表示给定输入xn的 的输出, 表示语言模型在主题层之前的下层网络;

S32,将经过主题提取模块训练出的潜变量zi视为当前语句ui的主题向量,将zi与步骤S20得到的句子表征向量vi串联,得到主题增强的句子表征向量vei。

6.根据权利要求1所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,步骤S40,将步骤S30得到的主题增强的句子表征作为初始节点,按照主题相似性进行聚类,根据句子主题信息以及时序关系构建对话子图,构建异构对话图,节点为每句话的句子表征,使用图循环网络更新图节点的过程包括以下子步骤:S41,将步骤S30得到的主题增强的句子表征作为初始节点,将多会话者对话按照主题信息相似度进行聚类,根据空间距离连接节点,若节点空间距离接近,且节点在时间上是相邻的,则构建边,最后得到分割成的若干对话子图;每个对话子图表示该时间段内讨论事情相同,情感具有衔接性;

S42,处理各个对话子图内的节点,图的节点为每个speaker说的话vei,对应说话者表示1

为 针对每个对话子图构建一个异构图,边的类型分两种:说话者相同的边e 、说话者不0

同的边e;每个节点按照时间顺序排列,节点i构建边的规则是:vei与后方节点构建边,若后方节点vej的说话者 则连接两个节点,表示为 直到检测到说话者相同的节点,假设为vek,k>i,即当 时构建边为 并停止检测,开始构建节点vei+1与后续节点的边,直到检测完所有节点,得到最终的子图初始图;

S43,使用图卷积网络更新步骤S42中得到的子图初始图的节点,节点的更新由前置节点及其连接的边决定,且边的关系类型不同,权重不同,更新后的节点即为经过句子语义增强和情感交互处理的句子节点vsei。

7.根据权利要求6所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,步骤S50中,将步骤S43得到的最终的句子表示vsei投入分类器中,对话语的情感进行分类;分类器使用一个全连接层:hi=ReLU(Whvsei+bh)

li=softmax(Wlhi+bl)

其中,k表示情绪类别标签个数, 为最终预测出的情绪标签,Wh、bh、Wl、bl是可学习的参数。

8.根据权利要求7所述的基于主题语义增强的异构图结构多会话者情感分析方法,其特征在于,整个方法以端到端的方式训练,总方法的损失函数定义如下:其中,λ为可学习的参数, 是主题模块的损失函数, 是分类器的损失函数;

使用证据下限计算, 使用交叉熵损失函数计算。