利索能及
我要发布
收藏
专利号: 2023103922217
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DualGCN的文本情感分析方法,其特征在于:该方法包括以下步骤:

S1:使用预训练的Glove词嵌入,获得每个词相对应的向量以及词向量,通过预训练语言表征模型BERT作为encoder来得到句子的隐藏状态向量;

S2:利用依赖解析器来得到句子的依赖树,根据依赖树构造其相应的邻接矩阵DA,以此提供所有潜在的句法结构来在SynGCN模块中捕获丰富的结构信息,同时引入组成树,组成树的每一层由几个短语组成,根据这些短语来设计它们的邻接矩阵CA,将这两种句法信息syn syn进行融合,对矩阵DA和CA进行融合处理,得到矩阵A ,A 同时包含短语级别的句法信息和从句级别的句法信息,能更精确的利用句法信息;

S3:构造基于卷积神经网络模型的语法模块SynGCN和语义模块SemGCN中,分别挖掘出句子的语法信息和语义信息,为减缓GCN模型普遍出现的过渡平滑现象,在两个子卷积神经网络中引入多跳信息,代替原有的仅从邻居节点获取信息,从邻居节点扩展到非邻居节点,减缓过度平滑现象;将S1获得的隐藏状态向量分别输入到SynGCN和SemGCN中;将S2融合组syn成树Con.Tree和依赖树Dep.Tree信息构成的特征矩阵A 输入到SynGCN模块中,得到句子sem对应的第一语法图特征;在SemGCN模块中,通过自注意力机制来构造其邻接矩阵A ,对待分析的句子进行语义特征提取,得到相应的第一语义图特征;

S4:将所得到第一语法图特征和第一语义图特征输入到DualGCN中的双仿射模块,分别对第一语法图特征和第一语义图特征来进行特征交换,融合了语义和语法信息,得到了第二语法图特征和第二语义特征;

S5:将第二语法图特征和第二语义图特征分别输入到DualGCN的池化层,对提取到的节点特征进行平均池化和拼接处理的操作,得到第一拼接特征;

S6:利用DualGCN的全连接层对第一拼接特征进行概率分析,得到不同方面词对应的情感极性结果,通过softmax函数来进行分类;

所述待分析的句子表示为s={w1,w2,…,wn},其中wn为在句子中第n个词,以及获取句子中的方面词,构造出该句子‑方面对(s,a),其中a={a1,a2,…,am};即a是句子s中的方面词,am为句子s中第m个方面词,利用预训练的Glove将待分析的句子中的每个词转换为相应的词向量和词性信息;表示为x={x1,x2,…,xn},xn为第n个词相对应的词向量;将词向量和词性信息分别输入到Bert编码器和依赖解析器中,获得BERT序列中子词的索引集,在表达句子的句法结构的组成树以及表达句子中词与词的依赖关系的依赖树中,对于组成树来说,其只有叶子结点与输入句子中的词语相关联,其他中间结点都是标记短语成分;对于依赖树来说,其用来表达句子中词与词的依赖关系,分析识别句子中的“主谓宾”、“定状补”的语法成分,每个结点都是一个词语;利用组成树和依赖树来进行图的构造,组成树的每一层ll由句子的几个短语{ph u}组成,根据短语构造它的邻接矩阵CA,根据依赖树的依赖关系,构造其邻接矩阵DA;再根据语法编码器将CA与DA特征矩阵进行融合,语法编码器由几个设计的层次图注意块堆叠而成,在组成树和依赖树的语法信息的指导下构造相应的图,融合后synA 作为SynGCN模块的输入;同时,BERT输出的隐藏状态向量输入到SemGCN模块中,在基于sem自注意力机制并行地计算每一对元素的注意力得分,将计算得到的注意力得分矩阵A 作为SemGCN模块的邻接矩阵,其注意力得分矩阵 其中Q K

Q和K为SemGCN前一层的图表示,W和W表示可学习的参数权重矩阵,d是输入结点特征的维度,g是注意力通道数,dk为缩放系数;在构造SemGCN模块中的邻接矩阵时,为增强语义表示,提出正则化器Orthogonal Regularizer来鼓励所有单词得分向量之间的正交性。

2.根据权利要求1所述的一种基于DualGCN的文本情感分析方法,其特征在于:将矩阵sem synA 和A 输入到带有多跳信息的GCN中,多跳信息缓解DualGCN中过度平滑现象,通过从邻居结点扩展到非邻居结点,增加每一层的感受野;在SynGCN和SemGCN模块的两个邻接矩阵之间采用微分正则化。

3.根据权利要求1所述的一种基于DualGCN的文本情感分析方法,其特征在于:所述SynGCN将BERT的隐藏状态向量作为句法图中初始节点表示,通过SynGCN模块获得语法图表syn示 hn 表示为第n个隐藏节点,以及同理,SemGCN模块获得语义

图表示 双仿射模块交换过程为:

其中W1W2为可控制的

参数。

4.根据权利要求1所述的一种基于DualGCN的文本情感分析方法,其特征在于:所述对提取到的节点特征进行平均池化和拼接处理的操作具体为:其中f是应用方面节点表示上的平均池化函

数,γ表示拼接后的特征,[,]表示拼接操作;将拼接后的特征输入线性层,再用softmax函数得到情感概率分布P,具体操作表示为P=softmax(wpγ+bp),其中wp和bp是可学习权值和偏差。