买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度学习和主题模型的短文本相似度计算方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度学习和主题模型的短文本相似度计算方法

￥27600

专利号： 202210544327X

申请人：辽宁大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于深度学习和主题模型的短文本相似度计算方法，其特征在于，包含步骤如下：

1)对输入到系统的两个短文本，使用BERT分别进行分词及向量转换，并对分词结果和向量转化结果分别保存；

2)对向量转换转换后的词向量提取融合特征信息：首先采用双向的LSTM网络进行上下文信息提取，然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融合，再使用全局最大池化提取关键信息，得到多维度、多特征的融合特征信息；

提取词向量的融合特征信息的具体方法为：

将词向量x输入到深度学习模型，使用哈希编码的方式得到l1层；

l1＝W1*x

其中l1为词向量转化后的输出，W1为哈希映射矩阵，x为词向量输入；

然后依次通过LSTM、CNN融合的三层网络得到128维的低维向量y，再通过全局最大池化优化特征值输出，计算过程如下：li＝f(Wi*li‑1+bi),i＝2,…,N‑1其中表示第j次池化操作，最终输出的向量维度为M，li代表隐藏层节点，Wi是第li层的权重矩阵，bi为第li的偏置量，f为隐藏层和输出层的激活函数，使用的激活函数是tanh：

3)对分词后的两段段文本提取情感特征：将其输入到LDA情感分析主题模型，采用吉布斯抽样提取文本的情感色彩，提取两段文本的情感特征；

提取两段文本的情感特征的具体方法为：

将BERT分词后的结果输入到模型中，计算每段文本的情感属性概率分布：P(w,z|α,β)＝p(w|z,w)*p(z|α)采用吉布斯抽样计算数据与主题之间的关系，w表示文本中的某一个单词，α和β是是预设的超参数，z表示主题的编号；

根据贝叶斯公式和Dirichlet先验分布，计算Dirichlet分布期望：k表示主题数，θm,k表示数据m中主题k的分布，φk,t表示主题k中特征词t的词分布，nm,(k)表示数据m中主题k的特征词汇，nk,(t)表示特征词t在主题k的出现次数；

通过吉布斯抽样得到概率分布：

表示数据主题k中不属于数据m的特征词个数，表示特征词没有分配给主题词k的次数；

4)对于步骤2)中得到的融合特征进行相似度计算，对步骤3)中得到的情感特征进行情感分类判定，将上述两者的结果进行混合型文本语义相似度计算，得到两段文本之间的文本语义相似度；

对融合特征进行相似度计算，使用的公式为：

其中yQ表示第一个短文本经过深度学习网络后的输出结果，yD表示第二个句子经过经过深度学习网络后的输出结果。

2.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤1)中，分词及向量转换的具体方法为：将两段短文本分别通过BERT模型进行分词，并保存分词后的结果，再对BERT分词后的结果进行向量转化，转换成能被深度学习网络处理的词向量表示，将词向量x作为输入。

3.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤4)中，对情感特征进行情感分类判定，使用的公式为：Li＝max(softmax(P)),i＝1,2

其中P表示由LDA模型输出的情感特征，i表示输入到LDA模型的不同文本，当B得0时，表明两段文本的情感分类不同，当B得1时，表示两段文本的情感分类相同。

4.根据权利要求1所述的基于深度学习和主题模型的短文本相似度计算方法，其特征在于：所述的步骤4)中，两段文本之间的文本语义相似度计算公式为：S＝εR+(1‑ε)B

其中R表示深度学习网络提取到的相似度，B表示两段文本所属情感类别的相似度，ε表示深度学习网络提取到的相似度占最终结果输出的权重。

推荐专利

一种联合试题分类与评分学习的主观题自动评阅深度学习方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们