利索能及
我要发布
收藏
专利号: 2024108863224
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种知识增强的产品问答社区用户对话情绪识别方法,其特征在于,基于预设的模型,包括:获取多个产品问答社区的历史多轮问答信息;其中每一个所述历史多轮问答信息包括用户的多模态对话数据及其情绪标签,每一条所述多模态对话数据包括文本、视觉和音频模态信息;

针对当前历史多轮问答信息,获取每一条所述多模态对话数据对应的对话文本嵌入向量、对话视觉嵌入向量和对话音频嵌入向量;

对于任一条所述多模态对话数据,计算其文本模态信息的每个原始词与预先构建的用户个性化情感词典中关键词的相似度,将每个原始词的嵌入表示与相似度最高的关键词对应的偏好知识嵌入向量进行拼接,并将相应的最高相似度作为权值与拼接结果相乘,获取知识增强的对话文本嵌入向量;

将所述知识增强的对话文本嵌入向量作为主模态,采用跨模态Transformer将其与对话视觉嵌入向量和对话音频嵌入向量进行融合,获取每一所述多模态对话数据的知识增强后的对话特征向量;

根据所述对话特征向量,采用LSTM网络建模每一条所述多模态对话数据中用户的上下文情绪依赖关系,以获取个性化偏好知识感知的上下文情境向量;以及根据所述上下文情境向量,构建全局对话图,采用GCN网络建模每一条所述多模态对话数据中用户之间的情绪依赖关系,以获取存储全局上下文状态的全局情境向量;

根据所述对话特征向量和全局情境向量之间的交互作用,通过协同注意力机制获取每一条所述多模态对话数据的情绪识别预测结果;

根据每一条所述多模态对话数据对应的对话文本嵌入向量、对话视觉嵌入向量和对话音频嵌入向量,基于情感层与多模态层的双层有监督对比学习策略构建对比学习损失;根据每一条所述多模态对话数据的情绪标签以及情绪识别预测结果,构建交叉熵损失;最小化所述对比学习损失和交叉熵损失的联合损失函数,训练所述模型直至收敛;

将待识别的多轮问答信息作为收敛后的模型的输入,获取该多轮问答信息中每一条多模态对话数据的情绪识别结果。

2.如权利要求1所述的产品问答社区用户对话情绪识别方法,其特征在于,获取基于情感层的对比学习损失的过程;包括将所述对话文本嵌入向量、对话视觉嵌入向量和对话音频嵌入向量映射到三维的VAD情感空间中:其中,模态m∈{T,V,A},T,V,A分别为多模态对话数据中的文本、视觉和音频模态信息;

为对应的多模态嵌入向量, 为映射至VAD情感空间的特征表示,i为多模态对话数据的索引;R为集合;W为权重参数;b为偏置项;

3

在VAD情感空间中为每类情绪引入人工标记的ec∈R;其中c∈E表示情绪类别,E表示情绪标签类别的集合,ec表示与真实情绪标签对应的VAD向量;

将每一条所述多模态对话数据作为一条样本,将每个样本内三种模态信息映射至VAD情感空间的特征表示与其真实情绪标签对应的VAD向量视为正样本对,与其它类情绪的VAD向量视为负样本对,构建第一对比学习损失:其中,|E|为情绪类别数目;超参数λm用于调节每种模态信息与标签的一致性对比损失函数的权重;log为对数函数; 表示第i条多模态对话数据的真实情绪标签yi对应的VAD向量;·表示点积运算,用于计算向量之间的相似度;τ为可学习的超参数。

3.如权利要求2所述的产品问答社区用户对话情绪识别方法,其特征在于,获取基于多模态层的对比学习损失的过程;包括:将具有同类情绪的样本的多模态嵌入向量视为正样本对,不同类情绪的样本的多模态嵌入向量视为负样本对,构建第二对比学习损失:其中,m1,m2为任意的两个模态;λm1,m2为不同模态间的对比学习的权重超参数;Nd为前历史多轮问答信息的样本数目; 为当前历史多轮问答信息中标签为yi的样本数目;j、k分别为作为样本的多模态对话数据的索引。

4.如权利要求1所述的产品问答社区用户对话情绪识别方法,其特征在于,构建所述用户个性化情感词典的过程;包括:选择人工标注的情感词典NRC‑VAD中文版作为基础情感词典,表示为

其中(Vi,Ai,Di)为单词wi的特征表示对应的VAD情绪状态向量,分别表示在激活度、愉悦度、支配度三个维度上的评分为Vi,Ai,Di,且三者取值范围均在0到1之间;

爬取当前产品问答社区中所有用户的历史问答信息,构建一个目标领域的问答语料库,去除停用词后得到一个领域词典W;并使用该词典训练一个Word2Vec模型,以将W中每个单词映射到一个包含单词语义信息的高维向量,使用余弦相似度来度量任意两个单词之间的语义相似度;

对于W中的单词,或属于词典L0,或不属于基础情感词典L0,通过任意两个单词之间的语义相似度若干个与之相似的单词,存在相似的单词属于词典L0,则将该单词作为潜在的情绪词,并添加到潜在情绪词集合P中;

对于集合P中的每一个情绪词,定义算法f将其特征表示映射为VAD情绪状态向量;若VAD情绪状态向量的三个维度都大于0,则将该情绪词及对应的VAD情绪状态向量添加到词典L0中,将拓展后的领域情感词典记为Lnew;

收集当前用户的历史问答信息,并视为一个文档,去除文档中的停用词后进行分词处理;

采用TF‑IDF方法提取预处理后的文档中的所有关键词;

若关键词在拓展后的领域情感词典Lnew中,则查找该关键词对应的VAD情绪状态向量;

若关键词不在拓展后的领域情感词典Lnew中,则采用零向量代替;

将关键词的TF‑IDF值作为权值与VAD情绪状态向量或零向量相乘,获取对应的偏好知识嵌入向量;

汇总每一个关键词及对应的偏好知识嵌入向量,构建所述用户个性化情感词典。

5.如权利要求1所述的产品问答社区用户对话情绪识别方法,其特征在于,采用余弦相似度计算文本模态信息的每个原始词与预先构建的用户个性化情感词典中的关键词的相似度。

6.如权利要求1所述的产品问答社区用户对话情绪识别方法,其特征在于,所述将所述知识增强的对话文本嵌入向量作为主模态,采用跨模态Transformer将其与对话视觉嵌入向量和对话音频嵌入向量进行融合,获取每一所述多模态对话数据的知识增强后的对话特征向量;包括:利用连接时序分类模型调整所述知识增强的对话文本嵌入向量、对话视觉嵌入向量和对话音频嵌入向量的序列长度,使其达到统一的标准;

以所述知识增强的对话文本嵌入向量为主模态,通过归一化向量的点积运算计算标准化后的文本和音频、文本与视觉信息之间的相似度矩阵,并将相似度矩阵经过Softmax函数激活后作为权重矩阵,与相应的非文本模态的嵌入向量相乘,以分别获取加权后的对话视觉嵌入向量与对话音频嵌入向量;

采用跨模态Transformer融合所述知识增强的对话文本嵌入向量、加权后的对话视觉嵌入向量与对话音频嵌入向量,获取每一所述多模态对话数据的知识增强后的对话特征向量。

7.一种知识增强的产品问答社区用户对话情绪识别系统,其特征在于,基于预设的模型,包括:信息获取模块,用于获取多个产品问答社区的历史多轮问答信息;其中每一个所述历史多轮问答信息包括用户的多模态对话数据及其情绪标签,每一条所述多模态对话数据包括文本、视觉和音频模态信息;

特征表示模块,用于针对当前历史多轮问答信息,获取每一条所述多模态对话数据对应的对话文本嵌入向量、对话视觉嵌入向量和对话音频嵌入向量;

偏好知识嵌入模块,用于对于任一条所述多模态对话数据,计算其文本模态信息的每个原始词与预先构建的用户个性化情感词典中关键词的相似度,将每个原始词的嵌入表示与相似度最高的关键词对应的偏好知识嵌入向量进行拼接,并将相应的最高相似度作为权值与拼接结果相乘,获取知识增强的对话文本嵌入向量;

跨模态融合模块,用于将所述知识增强的对话文本嵌入向量作为主模态,采用跨模态Transformer将其与对话视觉嵌入向量和对话音频嵌入向量进行融合,获取每一所述多模态对话数据的知识增强后的对话特征向量;

对话情景建模模块,用于根据所述对话特征向量,采用LSTM网络建模每一条所述多模态对话数据中用户的上下文情绪依赖关系,以获取个性化偏好知识感知的上下文情境向量;以及根据所述上下文情境向量,构建全局对话图,采用GCN网络建模每一条所述多模态对话数据中用户之间的情绪依赖关系,以获取存储全局上下文状态的全局情境向量;

情绪预测模块,根据所述对话特征向量和全局情境向量之间的交互作用,通过协同注意力机制获取每一条所述多模态对话数据的情绪识别预测结果;

模型训练模块,用于根据每一条所述多模态对话数据对应的对话文本嵌入向量、对话视觉嵌入向量和对话音频嵌入向量,基于情感层与多模态层的双层有监督对比学习策略构建对比学习损失;根据每一条所述多模态对话数据的情绪标签以及情绪识别预测结果,构建交叉熵损失;最小化所述对比学习损失和交叉熵损失的联合损失函数,训练所述模型直至收敛;

情绪识别模块,用于将待识别的多轮问答信息作为收敛后的模型的输入,获取该多轮问答信息中每一条多模态对话数据的情绪识别结果。

8.如权利要求7所述的知识增强的产品问答社区用户对话情绪识别系统,其特征在于,还包括词典构建模块,用于构建所述用户个性化情感词典,构建过程包括:选择人工标注的情感词典NRC‑VAD中文版作为基础情感词典,表示为

其中(Vi,Ai,Di)为单词wi的特征表示对应的VAD情绪状态向量,分别表示在激活度、愉悦度、支配度三个维度上的评分为Vi,Ai,Di,且三者取值范围均在0到l之间;

爬取当前产品问答社区中所有用户的历史问答信息,构建一个目标领域的问答语料库,去除停用词后得到一个领域词典W;并使用该词典训练一个Word2Vec模型,以将W中每个单词映射到一个包含单词语义信息的高维向量,使用余弦相似度来度量任意两个单词之间的语义相似度;

对于W中的单词,或属于词典L0,或不属于基础情感词典L0,通过任意两个单词之间的语义相似度若干个与之相似的单词,存在相似的单词属于词典L0,则将该单词作为潜在的情绪词,并添加到潜在情绪词集合P中;

对于集合P中的每一个情绪词,定义算法f将其特征表示映射为VAD情绪状态向量;若VAD情绪状态向量的三个维度都大于0,则将该情绪词及对应的VAD情绪状态向量添加到词典L0中,将拓展后的领域情感词典记为Lnew;

收集当前用户的历史问答信息,并视为一个文档,去除文档中的停用词后进行分词处理;

采用TF‑IDF方法提取预处理后的文档中的所有关键词;

若关键词在拓展后的领域情感词典Lnew中,则查找该关键词对应的VAD情绪状态向量;

若关键词不在拓展后的领域情感词典Lnew中,则采用零向量代替;

将关键词的TF‑IDF值作为权值与VAD情绪状态向量或零向量相乘,获取对应的偏好知识嵌入向量;

汇总每一个关键词及对应的偏好知识嵌入向量,构建所述用户个性化情感词典。

9.一种存储介质,其特征在于,其存储有用于知识增强的产品问答社区用户对话情绪识别的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一项所述的产品问答社区用户对话情绪识别方法。

10.一种电子设备,其特征在于,包括:

一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~6任一项所述的产品问答社区用户对话情绪识别方法。