1.一种多任务学习的双目标实体情感分析方法,其特征在于包括以下步骤:S1.通过句子语境分断符识别与左右实体情感极性分类的多任务学习,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型;
S2.使用步骤S1所训练的神经网络模型识别情感句子中的语境分断符;
S3.在步骤S1所训练的神经网络模型中,以步骤S2得到的语境分断符所对应的位置对情感句子的语义表示进行分离,得到左子句语义表示和右子句语义表示,然后分别对左子句语义表示和右子句语义表示进行情感分析,最终得到双目标实体的情感极性;
所述情感句子是指包含左、右两个目标实体的多情感表达句子;
所述语境分断符是指在情感句子中位于左右两个目标实体之间、使得两个目标实体的情感表达相互分离的字词;
所述神经网络模型是指一种基于BERT语言模型的神经网络结构;所述BERT语言模型是指Google AI Language提出的Bidirectional Encoder Representations from Transformers(BERT)语言模型。
2.根据权利要求1所述的一种多任务学习的双目标实体情感分析方法,其特征在于:所述步骤S1具体包括:
S1.1 BERT语言模型的输入序列s是由情感句子Sen={…,t1,w1,w2,…,wn,t2,…}与BERT编码符号所组成,如下所示:Mid={w1,w2,...,wn} (2)其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,t1是待分析的左目标实体,t2是待分析的右目标实体,Mid={w1,w2,...,wn}是左右目标实体t1和t2之间的中间字词序列,“…”代表省略的字词序列,m是输入序列s的长度,dw是BERT中字符编码的维度,n是中间字词序列Mid的长度,所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;
S1.2将输入序列s送入BERT语言模型进行处理,得到情感句子Sen的句子语义表示CSen,如下所示:其中, 表示BERT语言模型, 是BERT语言模型的第i个隐藏状态,db是BERT语言模型的隐藏单元数;
S1.3按照对应关系,从CSen中抽取出中间字词序列Mid={w1,w2,...,wn}所对应的中间语义表示CMid,如下所示:其中, 表示中间语义提取, 是第i个中间字词wi在CSen中所对应的隐藏状态;
S1.4对中间语义表示CMid执行一个softmax线性变换,进行语境分断符的识别,计算过程如下所示:其中, 是一个用于语境分断符识别的可学习的参数向量, 是一个偏置参数, 表示向量的点积运算, 是中间字词序列Mid对应的语境分断置信分数向量,w为一个中间字词,Ρ(w|CMid,θ)表示中间字词w为语境分断符的预测概率,*表示返回使得Ρ(w|CMid,θ)为最大值的中间字词,w为计算得出的语境分断符,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数;
S1.5以语境分断符wsp作为分隔符,形成两个由1、0组成的掩码矩阵,将句子语义表示CSen分离成左子句语义表示Cleft和右子句语义表示Cright,计算过程如下所示:L r
其中,mask为用于分离左子句语义的掩码矩阵,mask为用于分离右子句语义的掩码矩阵, 为一个全1向量, 为一个全0向量,tonkeni∈Sen为句子Sen中的第i个字L词,函数 求指定字词在句子Sen中的位置编号, 为mask中的第i列向量,i∈r[1,m]且为整数, 为mask中的第j列向量,j∈[1,m]且为整数, 表示逐元素相乘;
S1.6分别在左子句语义表示Cleft和右子句语义表示Cright上执行一个多头自注意力的编码过程,得到左子句语义编码C'left和右子句语义编码C'right,计算过程如下所示:其中,MHSA()X表示输入 的多头注意力MHA(Q,K,V);
S1.7分别对左子句语义编码C'left和右子句语义编码C'right执行平均池化操作,得到左L r子句情感向量Z和右子句情感向量Z,计算过程如下:其中,avePooling(C)表示对参数 执行按列求平均值的池化操作;
L r
S1.8分别对左子句情感向量Z和右子句情感向量Z执行softmax的线性变换,进行情感极性的概率计算,并得出最终的情感极性,计算过程如下:其中, 是情感极性的表示矩阵, 是一个偏置向量,dk是情感极性类别L r
的个数,Y是情感极性类别的集合,y是一个情感极性, 分别是Z和Z 所L r L r
对应的情感极性置信分数向量,Ρ(y|Z ,θ)、Ρ(y|Z ,θ)分别表示Z 和Z在情感极性y上的L r预测概率,y、y分别为最终评定的左情感极性和右情感极性,L
分别表示返回使得Ρ(y|Z ,θ)和Ρ(y|
r
Z ,θ)为最大值的情感极性,θ是所有可学习的参数集合,exp(·)表示以e为底的指数函数。
3.根据权利要求1所述的一种多任务学习的双目标实体情感分析方法,其特征在于:所述步骤S1中,联合训练一个具有句子语境分断符自动识别与双目标实体情感极性自动分类的神经网络模型的联合训练方法为:(1)分别使用交叉熵损失误差计算语境分断符识别的损失函数和双目标实体情感分析的损失函数,计算过程如下:其中,Ω是双目标实体情感分析任务的训练句子的集合,|Ω|表示集合Ω的大小, 是Ω中第i个训练句子的语境分断符的字词标签, 是Ω中第i个训练句子的中间语义表示,分别是Ω中第i个训练句子的左情感极性标签和右情感极性标签, 分别是ΩMid中第i个训练句子的左子句情感向量和右子句情感向量,Ψ (θ)是进行语境分断符识别训L r练时使用的损失函数,Ψ (θ)是进行左目标实体情感分析训练时使用的损失函数,Ψ (θ)是进行右目标实体情感分析训练时使用的损失函数;
(2)使用如下的公式(27)计算联合训练句子语境分断符识别与双目标实体情感极性分类的联合损失函数其中,α1和α2是两个权重参数;
(3)联合训练目标是最小化公式(27)计算的联合损失误差。