1.基于深度学习和主题模型的短文本相似度计算方法,其特征在于,包含步骤如下:
1)对输入到系统的两个短文本,使用BERT分别进行分词及向量转换,并对分词结果和向量转化结果分别保存;
2)对向量转换转换后的词向量提取融合特征信息:首先采用双向的LSTM网络进行上下文信息提取,然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融合,再使用全局最大池化提取关键信息,得到多维度、多特征的融合特征信息;
提取词向量的融合特征信息的具体方法为:
将词向量x输入到深度学习模型,使用哈希编码的方式得到l1层;
l1=W1*x
其中l1为词向量转化后的输出,W1为哈希映射矩阵,x为词向量输入;
然后依次通过LSTM、CNN融合的三层网络得到128维的低维向量y,再通过全局最大池化优化特征值输出,计算过程如下:li=f(Wi*li‑1+bi),i=2,…,N‑1其中 表示第j次池化操作,最终输出的向量维度为M,li代表隐藏层节点,Wi是第li层的权重矩阵,bi为第li的偏置量,f为隐藏层和输出层的激活函数,使用的激活函数是tanh:
3)对分词后的两段段文本提取情感特征:将其输入到LDA情感分析主题模型,采用吉布斯抽样提取文本的情感色彩,提取两段文本的情感特征;
提取两段文本的情感特征的具体方法为:
将BERT分词后的结果输入到模型中,计算每段文本的情感属性概率分布:P(w,z|α,β)=p(w|z,w)*p(z|α)采用吉布斯抽样计算数据与主题之间的关系,w表示文本中的某一个单词,α和β是是预设的超参数,z表示主题的编号;
根据贝叶斯公式和Dirichlet先验分布,计算Dirichlet分布期望:k表示主题数,θm,k表示数据m中主题k的分布,φk,t表示主题k中特征词t的词分布,nm,(k)表示数据m中主题k的特征词汇,nk,(t)表示特征词t在主题k的出现次数;
通过吉布斯抽样得到概率分布:
表示数据主题k中不属于数据m的特征词个数, 表示特征词没有分配给主题词k的次数;
4)对于步骤2)中得到的融合特征进行相似度计算,对步骤3)中得到的情感特征进行情感分类判定,将上述两者的结果进行混合型文本语义相似度计算,得到两段文本之间的文本语义相似度;
对融合特征进行相似度计算,使用的公式为:
其中yQ表示第一个短文本经过深度学习网络后的输出结果,yD表示第二个句子经过经过深度学习网络后的输出结果。
2.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法,其特征在于:所述的步骤1)中,分词及向量转换的具体方法为:将两段短文本分别通过BERT模型进行分词,并保存分词后的结果,再对BERT分词后的结果进行向量转化,转换成能被深度学习网络处理的词向量表示,将词向量x作为输入。
3.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法,其特征在于:所述的步骤4)中,对情感特征进行情感分类判定,使用的公式为:Li=max(softmax(P)),i=1,2
其中P表示由LDA模型输出的情感特征,i表示输入到LDA模型的不同文本,当B得0时,表明两段文本的情感分类不同,当B得1时,表示两段文本的情感分类相同。
4.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法,其特征在于:所述的步骤4)中,两段文本之间的文本语义相似度计算公式为:S=εR+(1‑ε)B
其中R表示深度学习网络提取到的相似度,B表示两段文本所属情感类别的相似度,ε表示深度学习网络提取到的相似度占最终结果输出的权重。