买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于词汇语义增强的句子相似度计算方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于词汇语义增强的句子相似度计算方法

￥22200

专利号： 2023109533532

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于词汇语义增强的句子相似度计算方法，其特征在于，包括如下步骤：步骤1、获取源数据和词汇约束集合；

步骤2、对源数据和词汇约束集合进行预处理；具体过程如下：步骤2.1、对源数据建立数据字典，将每个词汇映射成唯一的索引；

步骤2.2、读取源数据和词汇约束集合，将源数据作为第一数据；

步骤2.3、读取词汇约束集合和第一数据，进行字段类型转换；

步骤2.4、将词汇约束集合中的词汇与第一数据中的词汇做对比，判断词汇约束集合中的词汇是否存在于第一数据中，将既属于词汇约束集合又属于第一数据的词汇作为第二数据；

步骤2.5、将不同的词汇约束集合进行重复值处理，去除词汇约束集合中的重复内容；

步骤3、采用主成分分析法对第二数据进行降维处理，提取词向量中的主要特征，得到第三数据；具体过程如下：步骤3.1、对第二数据的分布式词向量进行去中心化操作；

步骤3.2、计算选取的batch块中词向量的的协方差矩阵；

步骤3.3、对协方差矩阵做特征值分解，计算特征值和特征向量，并对特征值进行降序排列；

步骤3.4、按照实际需求，取最大的D个特征值所对应的单位特征向量；

步骤3.5、确定变换矩阵，进行数据降维，求解结束后获得降维后的第三数据；

步骤4、针对不同的词汇约束集合构建不同的损失函数；具体过程如下：构建第一损失函数，公式如下：

Li,j＝log(∑(i,k)∈Mexp(β‑Di,k)+∑(j,k)∈Mexp(β‑Dj,k))+Di,j (1)；

其中，Li,j表示样本示例对(i,j)在分布式空间中的损失；i表示示示例对(i,j)中的锚点样本；k表示batch块选中的距离锚点样本i最近的负样本；M表示batch块中所有的负样本对；Di,k表示锚点样本i与其负样本k之间的距离；j表示样本示例对(i,j)中i样本的正样本；

β表示最小间隔或者最大间隔；Dj,k表示正样本j与其负样本k之间的距离；Di,j表示样本示例对中i和j之间的向量距离；

构建第二损失函数，第二损失函数L2的公式如下：其中，是上义词‑下义词约束集中的示例对，表示示例对中上义词；表示示例对中的下义词；

构建第三损失函数，第三损失函数L3的公式如下：L3＝∑x∈batchγreg‖xi′‑xi‖ (4)；

其中，x表示batch中的任一个词汇；γreg表示正则化系数；xi′表示对应词汇原始空间中的分布式词向量；xi表示优化后的分布式词向量；

同义词约束集合和反义词约束集合的损失函数L同/反为：L同/反＝Li,j+L3 (5)；

上义词和下义词约束集合的损失函数L上/下为：L上/下＝Li,j+L2+L3 (6)；

模型的整体损失Ltotal如下所示：

Ltotal＝Li,j+L2+L3 (7)；

构建完成模型的整体损失后，选择合适的优化器对所述的整体损失进行优化，基于损失函数的最小值，不断地训练模型，调整模型中的海量参数，最终生成基于词汇语义增强的句子相似度模型；

步骤5、进行分布式词向量优化；具体过程如下：步骤5.1、将降维后的第三数据输入到句子相似度模型；

步骤5.2、判断输入的词汇属于哪一个语义约束集合；

步骤5.3、为词汇选择对应的损失函数，为词汇修正建立模型；

步骤5.4、选择合适的参数优化方法，不断对模型参数进行优化；

步骤5.5、待模型优化完成以后，词汇向量得以优化；

步骤6、计算两个句子的余弦相似度；具体过程如下：步骤6.1、获取待计算相似性的两个句子，分别将两个句子进行分词；

步骤6.2、在优化后词向量中选取第一个句子的词汇向量，并将第一个句子中的词汇向量取均值，取均值后的结果称为第一语义向量；

步骤6.3、在优化后词向量中选取第二个句子的词汇向量，并将第二个句子中的词汇向量取均值，取均值后的结果称为第二语义向量；

步骤6.4、计算第一语义向量和第二语义向量的余弦相似度，得出句子余弦相似度的分析结果。

2.根据权利要求1所述基于词汇语义增强的句子相似度计算方法，其特征在于，所述步骤1中，获取的源数据为通过Word2vec模型训练生成的分布式词向量；通过学习不同的知识资源获得词汇约束集合，词汇约束集合中包括三种，分别为：同义词约束集合、反义词约束集合、上义词‑下义词约束集合。

推荐专利

面向多语种的通用地名语义相似度计算方法及其应用

发明专利

￥26800

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们