1.一种方面级情感分析方法,其特征在于,包括以下步骤:
获取待分析的文本;所述待分析的文本为包括方面和意见信息的英文文本;
通过分词工具将待分析的文本进行分词处理,得到分词后的文本;
基于字典对分词后的文本进行编码,得到编码后的文本;
根据编码后的文本构造出多个查询,所述查询包括由方面提取意见的查询和由意见提取方面的查询两个方向的查询;
将每个查询输入至双向机器阅读理解模型中,输出得到每个查询对应的方面与意见对;所述双向机器阅读理解模型由Bert预训练模型与多个二分类器组成,每个方向查询包括无限制查询和有限制查询两个子查询,每个子查询对应设有独用的分类器;
根据所述方面与意见对构造预测情感极性的情感查询,将情感查询输入至情感查询分类器中进行情感分类,得到情感分类结果。
2.根据权利要求1所述的一种方面级情感分析方法,其特征在于,通过分词工具将待分析的文本进行分词处理,得到分词后的文本;其中,所述分词工具为transformers库提供的WordPiece分词工具,具体包括:将组合词分解成多个字典更容易编码的子词;
或者,将同意词进行分词,让同意词产生联系,逻辑上增加同意词的训练语料,字典更容易编码。
3.根据权利要求1所述的一种方面级情感分析方法,其特征在于,将每个查询输入至双向机器阅读理解模型中,输出得到每个查询对应的方面与意见对;所述双向机器阅读理解模型由Bert预训练模型与多个二分类器组成,每个查询包括无限制查询和有限制查询两个子查询,每个子查询对应设有独用的分类器,包括:先进行无限制查询,具体为:将没有携带上下文信息的查询输入至双向机器阅读理解模型中,查询得到文本中所有的方面与所有的意见;
再根据查询得到的所有的方面与所有的意见进行有限制查询,具体为:将携带了上下文信息的查询输入至双向机器阅读理解模型中,即通过指定的方面查询描述它的所有的意见,以及通过指定的意见查询被它描述的所有的方面,得到多个方面提取意见查询和意见提取方面查询对应的方面与意见对;
对得到的多个方面与意见对进行筛选,选择方面提取意见查询和意见提取方面查询两个对应的双向查询中方面与意见对的交集以及方面提取意见查询或意见提取方面查询单向查询结果中方面与意见对概率值不低于阈值0.90的部分,作为双向机器阅读理解模型输出的结果。
4.根据权利要求3所述的一种方面级情感分析方法,其特征在于,每个查询中方面和意见的概率值均是将预测的方面或者意见的开始位置和结束位置的概率值平均化后作为它们的概率值,其中,预测的方面或意见的开始位置和结束位置的概率值均由独用的分类器的输出直接输入到softmax函数得到;方面与意见对的概率值是将预测的方面和意见的概率值平均化后作为概率值;
具体表示为:
其中,Aspectstart和Aspectend分别表示预测的方面的开始位置和结束位置的概率值,它们的乘积再开根号作为方面的概率值P(Aspect);Opinionstart和Opinionend分别表示预测的意见的开始位置和结束位置的概率值,它们的乘积再开根号作为意见的概率值P(Opinion);而P(Aspect,Opinion)表示方面与意见对的概率值,由方面的概率值与意见的概率值相乘再开根号得到;Aspectstart、Aspectend、Opinionstart和Opinionend均由独用的分类器的输出直接输入到softmax函数得到。
5.根据权利要求1所述的一种方面级情感分析方法,其特征在于,每个子查询设有的独用的分类器为二分类器,表示为:其中, 表示构造的第t个查询,|qt|代表第t个查询的
token数量,token表示原始文本数据经过分词与编码后的数据;每个查询包括由方面提取意见的查询中的无限制查询和有限制查询,以及由意见提取方面的查询中的无限制查询和有限制查询4种查询方式,Ws,j和We,j分别是第j种查询用于预测开始位置与结束位置的二分类器的模型参数,每种查询都由两个二分类器来进行预测,一个分类器预测每个token是否为答案的起始位置,另一个分类器预测每个token是否为结束位置;qt,i表示预测的对象是第t个查询中第i个token, 表示该查询的第i个token为开始位置的预测值, 表示该查询的第i个token为结束位置的预测值。
6.根据权利要求4所述的一种方面级情感分析方法,其特征在于,独用的分类器在用于预测结果在文本中的开始位置和结束位置时,存在预测多个开始和结束位置的可能,对于每个查询区间开始位置与结束位置的选择,采用区间匹配策略,即:选取某个方面或意见的结束位置与上一个预测出来的对应的方面或意见的结束位置之间开始位置概率值最大的作为开始位置;如果存在开始位置概率值相同的开始位置,选择位置最接近选取的结束位置的那一个作为开始位置;方面或意见的开始和结束位置概率值由独用的分类器的输出直接输入到softmax函数得到。
7.根据权利要求1所述的一种方面级情感分析方法,其特征在于,所述情感查询分类器为三分类器,即消极、积极、中立三种情感极性,表示为:sent
p(y |qs)=softmax(qsWc)
sent
Wc是情感查询分类器c的模型参数,qs是第s个情感查询,y 表示该查询经过情感查询分类器预测得到的情感极性预测值。
8.一种方面级情感分析系统,其特征在于,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1‑7任一项所述的一种方面级情感分析方法。