1.一种词项配对方法,其特征在于,包括以下步骤:
获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型,其中,所述待测语句包括若干个单词,所述依赖信息包括依赖类型信息以及依赖关系信息,所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块;
将所述待测语句输入至所述词嵌入模块中进行编码处理,获取所述待测语句的若干个单词的词嵌入向量;
将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取,获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量;
将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理,获得所述待测语句的若干个单词的特征融合向量;
根据预设的词项长度,对所述待测语句的若干个单词进行组合,获得所述待测语句的若干个词项,将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别,获得所述待测语句的若干个词项的词项类型;
根据所述依赖关系信息,构建所述待测语句的邻接矩阵,根据所述待测语句的若干个词项的词项类型,对所述待测语句的邻接矩阵进行修正处理,获得修正处理后的所述待测语句的邻接矩阵;
将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中,对所述若干个词项进行两两配对,获得所述待测语句的若干个目标词组。
2.根据权利要求1所述的词项配对方法,其特征在于,所述将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取,获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量,包括步骤:根据所述依赖类型信息,构建所述待测语句的若干个单词的依赖类型矩阵,所述依赖类型矩阵包括若干个依赖类型向量,根据所述待测语句的若干个单词的依赖类型矩阵以及预设的依赖类型向量平均算法,获得所述待测语句的若干个单词的依赖类型向量,其中,所述依赖类型向量平均算法为:式中,di为第i个单词的依赖类型向量,v为依赖类型向量的数目,di,v,为第i个单词的依赖类型矩阵中第v个依赖类型向量;
根据所述词性标注信息,构建所述待测语句的词性标注表示,其中,所述词性标注表示包括若干个单词的词性标注向量,所述词性标注表示为:p={p1,p2,...,pi}
式中,p为词性标注表示,pi为第i个单词的词性标注向量。
3.根据权利要求1所述的词项配对方法,其特征在于,所述将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理,获得所述待测语句的若干个单词的特征融合向量,包括步骤:将同一个单词的词嵌入向量、词性标注向量以及依赖类型向量进行拼接处理,获得所述待测语句的若干个单词的特征拼接向量;
根据所述待测语句的若干个单词的特征拼接向量以及预设的第一卷积算法,获得所述待测语句的若干个单词的若干个第一卷积向量,其中,所述第一卷积算法为:k
式中, 为第i个单词的第k个第一卷积向量,ReLU()为激活函数,w为第一权重参数,khi‑w:i+w为若干个单词的句法特征向量,b为第一偏置参数;
根据预设的特征拼接算法,将同一个单词的第一卷积向量进行拼接处理,获得所述待测语句的若干个单词的特征融合向量,其中,所述特征拼接算法为:式中, 为第i个单词的特征融合向量,dh为特征维度, 为特征拼接符号。
4.根据权利要求3所述的词项配对方法,其特征在于,所述将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别,获得所述待测语句的若干个词项的词项类型,包括步骤:根据所述待测语句的若干个词项的各个单词的特征融合向量以及预设的词项特征计算算法,获得所述待测语句的若干个词项的词项特征向量,其中,所述词项特征计算算法为:式中,hq,pool为第q个词项的第一池化特征向量,Max‑Pooling()为池化函数, 为第q个词项的开端单词的特征融合向量, 为第q个词项的结尾单词的特征融合向量,Tq为第q个词项的词项特征向量, 为特征拼接符号;
根据所述待测语句的若干个词项的词项特征向量以及预设的词项识别算法,获取所述待测语句的若干个词项的词项极性概率分布向量,根据所述词项极性概率分布向量,获取概率最大的维度对应的词项极性,作为所述词项类型,其中,所述词项识别算法为:c c
Cq=Softmax(wDropout(Tq)+b)
c
式中,Cq为第q个单词的词项极性概率分布向量,w 为第二权重参数,Softmax()为归一c化函数,Dropout()为正则化函数,b为第二偏置参数。
5.根据权利要求4所述的词项配对方法,其特征在于:所述邻接矩阵包括若干个邻接向量,所述邻接向量表示所述待测语句的若干个单词之间的依赖关系;所述词项类型包括属性词词项、情感词词项以及其他词项;
所述根据所述待测语句的若干个词项的词项类型,对所述待测语句的邻接矩阵进行修正处理,获得修正处理后的所述待测语句的邻接矩阵,包括步骤:根据所述待测语句的若干个词项的词项极性,对所述待测语句的邻接矩阵中,词项类型为其他词项类型对应的若干个邻接向量进行标记,作为目标邻接向量;
根据预设的修正值,对所述待测语句的邻接矩阵中,若干个目标邻接向量进行修正处理,获得修正处理后的所述待测语句的邻接矩阵。
6.根据权利要求5所述的词项配对方法,其特征在于:所述词对配对模块包括多层图卷积模块;
所述将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中,对所述若干个词项进行两两配对,获得所述待测语句的若干个目标词组,包括步骤:将所述修正处理后的所述待测语句的邻接矩阵以及若干个词项的各个单词的特征融合向量输入至所述多层图卷积模块,根据预设的第二卷积算法,获得所述待测语句的若干个词项的各个单词的第二卷积向量,其中,所述第二卷积算法为:式中, 为所述多层图卷积模块的第l层输出的第i个单词的第二卷积向量,σ()为激活函数;gi,j为修正处理后的所述待测语句的邻接矩阵中第i个单词与第j个单词之间的邻g g接向量,w为第三权重参数,b为第三偏置参数;
根据所述待测语句的若干个词项的词项类型,构建所述待测语句的属性词词项集以及情感词词项集,其中,所述属性词词项集包括若干个属性词词项,所述情感词词项集包括若干个情感词词项;
根据所述待测语句的属性词词项集以及情感词词项集对应的若干个词项的各个单词的第二卷积向量以及预设的词项配对向量计算算法,获得各个属性词词项与各个情感词词项的词项配对向量,其中,所述词项配对向量计算算法为:式中,a表示属性词词项集,aq,pool为属性词词项集中第q个词项的第二池化特征向量,Max‑Pooling()为池化函数, 为属性词词项集中第q个词项的开端单词的第二卷积向量, 为属性词词项集中第q个词项的结尾单词的第二卷积向量,Oj,pool为第j个情感词词项的第二池化特征向量, 为第j个情感词词项的开端单词的第二卷积向量,context为第j个情感词词项的结尾单词的第二卷积向量,h 为第三卷积向量,Rq,j为第q个属性词词项与第j个情感词词项的词项配对向量;
根据所述各个属性词词项与各个情感词词项的词项配对向量以及预设的词项配对算法,获取所述各个属性词词项与各个情感词词项的词项配对预测概率分布向量,根据所述词项配对预测概率分布向量,获取概率最大的维度对应的数据,作为所述各个属性词词项与各个情感词词项的的词项配对预测值,根据所述词项配对预测值以及预设的词项配对判断阈值,获得所述待测语句的若干个目标词组,其中,所述词项配对算法为:z z
Zq,j=Softmax(wDropout(Rq,j)+b)
式中,Zq,j为属性词词项集中第q个词项与情感词词项集中第j个词项的词项配对预测z z概率分布向量,Softmax()为归一化函数,w为第三权重参数,Dropout()为正则化函数,b为第三偏置参数。
7.根据权利要求6所述的词项配对方法,其特征在于,还包括步骤:训练所述词项词对处理模型,所述训练所述词项词对处理模型,包括步骤:获得训练语句集、依赖信息集以及词性标注信息集,其中,所述训练语句集中包括若干个训练语句,所述训练语句包括若干个单词;所述依赖信息集包括所述若干个训练语句对应的依赖信息,所述词性标注信息集包括所述若干个训练语句的若干个单词的词性标注信息;
将所述训练语句集、依赖信息集以及词性标注信息集输入至待训练的词项词对处理模型,构建第一特征向量训练集、第二特征向量训练集以及第三特征向量训练集,其中,所述第一特征向量训练集包括若干个属性词项的词项特征向量,所述第二特征向量训练集包括若干个情感词项的词项特征向量,所述第三特征向量训练集包括若干个其他词项的词项特征向量;
根据所述第一特征向量训练集、第二词项特征向量训练集、第三词项特征向量训练集以及预设的第一损失函数,获得第一损失值,其中,所述第一损失函数为:A O
式中,L为第一子损失值,L为第二子损失值,m为属性词项的词项特征向量数目,n为情感词项的词项特征向量数目,u为其他词项的词项特征向量数目, 为第q个属性词项的词项特征向量, 为第j个属性词项的词项特征向量, 为第j个情感词项的词项特征向量,为第q个情感词项的词项特征向量, 为第q个其他词项的词项特征向量,sim()为余弦相似度函数,τ为温度系数;
获得若干个训练语句对应的若干个目标词组,根据所述若干个训练语句对应的若干个目标词组,构建正例特征向量训练集以及负例特征向量训练集,其中,所述正例特征向量训练集包括若干个目标词组的属性词项与情感词项的词项配对向量,所述负例特征向量训练集包括若干个非目标词组的属性词项与情感词项的词项配对向量;
根据所述正例特征向量训练集、负例特征向量训练集以及预设的第二损失函数,获得第二损失值,其中,所述第二损失函数为:P
式中,L 为第二损失值,S为所述正例特征向量训练集中目标词组的属性词项与情感词项的词项配对向量的数目,D为所述负例特征向量训练集中非目标词组的属性词项与情感词项的词项配对向量的数目,Rs为正例特征向量训练集中第s个目标词组的属性词项与情感词项的词项配对向量,Rd为正例特征向量训练集中第d个目标词组的属性词项与情感词项的词项配对向量, 为负例特征向量训练集中第d个目标词组的属性词项与情感词项的词项配对向量;
根据所述第一损失值以及第二损失值,对所述待训练的词项词对处理模型进行训练,获得目标词项词对处理模型。
8.一种词项配对装置,其特征在于,包括:
数据获取模块,用于获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型,其中,所述待测语句包括若干个单词,所述依赖信息包括依赖类型信息以及依赖关系信息,所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块;
编码模块,用于将所述待测语句输入至所述词嵌入模块中进行编码处理,获取所述待测语句的若干个单词的词嵌入向量;
特征提取模块,用于将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取,获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量;
特征融合模块,用于将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理,获得所述待测语句的若干个单词的特征融合向量;
词项类型预测模块,用于根据预设的词项长度,对所述待测语句的若干个单词进行组合,获得所述待测语句的若干个词项,将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别,获得所述待测语句的若干个词项的词项类型;
邻接矩阵构建模块,用于根据所述依赖关系信息,构建所述待测语句的邻接矩阵,根据所述待测语句的若干个词项的词项类型,对所述待测语句的邻接矩阵进行修正处理,获得修正处理后的所述待测语句的邻接矩阵;
词项配对模块,用于将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中,对所述若干个词项进行两两配对,获得所述待测语句的若干个目标词组。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求
1至7中任一项所述的词项配对方法的步骤。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的词项配对方法的步骤。