利索能及
我要发布
收藏
专利号: 2020109288062
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于关键词的句子向量生成方法,其特征在于,包括:获取目标主题段落的被处理句子;

根据所述目标主题段落确定主题关键词;

根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;

确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;

通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;

根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;

根据所述注意力权重矩阵生成所述被处理句子对应的句子向量;

所述通过预设方式获取所述主题关键词、句间关键词和普通词的权重,包括:对所述目标主题段落进行分词处理,并剔除所述目标主题段落中的停用词,得到所述目标主题段落对应的各个分词;

分别确定所述各个分词在所有分词中出现的次数;

根据所述各个分词在所有分词中出现的次数对应获取所述各个分词的词频;

根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数,其中,所述其他主题段落与所述目标主题段落为不同的主题段落,所述逆文档参数用于表征分词在所有主题段落中的权重;

确定用于配置关键词权重的反函数和权重数值分布关系;

根据所述权重数值分布关系限制所述反函数的权重输出区间;

将所述主题关键词、句间关键词和普通词对应的逆文档参数分别输入所述反函数,以通过所述反函数对应输出所述主题关键词、句间关键词和普通词的权重。

2.如权利要求1所述的句子向量生成方法,其特征在于,所述根据所述目标主题段落确定主题关键词,包括:计算所述各个分词对应的词频和逆文档参数的乘积作为所述各个分词的关键词数值;

依次选取所述关键词数值的大小排前M位的分词作为所述主题关键词。

3.如权利要求2所述的句子向量生成方法,其特征在于,所述根据所述各个分词在所有分词中出现的次数对应获取各个分词的词频,包括:将所述各个分词在所有分词中出现的次数对应作为所述各个分词的词频;

或;

将所述各个分词在所有分词中出现的次数与目标词数的商对应作为所述各个分词的词频,所述目标词数为所述所有分词的总词数;

或;

将所述各个分词在所有分词中出现的次数与目标次数的商对应作为所述各个分词的词频,所述目标次数为所述所有分词中,出现次数最多的分词的出现次数。

4.如权利要求2所述的句子向量生成方法,其特征在于,所述根据其他主题段落和所述目标主题段落获取所述各个分词对应的逆文档参数,包括:分别通过如下方式计算获取所述各个分词对应的逆文档参数:其中,所述topicdiff表示目标分词对应的逆文档参数,N表示所述其他主题段落和所述目标主题段落的总数,L表示包含所述目标分词的主题段落的数量,所述目标分词表示所述各个分词中的分词。

5.如权利要求1‑4任一项所述的句子向量生成方法,其特征在于,所述根据所述被处理句子的非停用词确定所述被处理句子的句间关键词,包括:计算所述被处理句子的非停用词在所述目标主题段落中出现的频率;

确定所述被处理句子的非停用词在所述目标主题段落中出现的频率是否小于预设频率;

若所述被处理句子的非停用词在所述目标主题段落中出现的频率小于预设频率,则将频率小于预设频率的所述被处理句子的非停用词作为所述被处理句子的句间关键词。

6.如权利要求1‑4任一项所述的句子向量生成方法,其特征在于,所述根据所述注意力权重矩阵生成所述被处理句子对应的句子向量,包括:获取所述被处理句子的分词的表征向量;

将所述被处理句子的分词的表征向量与所述注意力权重矩阵中对应的权重相乘,并将经过所述相乘的各所述被处理句子的分词的表征向量进行叠加,以获取所述被处理句子对应的句子向量。

7.一种基于关键词的句子向量生成装置,其特征在于,获取模块,用于获取目标主题段落的被处理句子;

主题关键词确定模块,用于根据所述目标主题段落确定主题关键词;

句间关键词确定模块,用于根据所述被处理句子的非停用词确定所述被处理句子的句间关键词;

普通词确定模块,用于确定所述被处理句子的普通词,所述普通词为除所述主题关键词和句间关键词以外的词;

权重确定模块,用于通过预设方式获取所述主题关键词、句间关键词和普通词的权重,其中,所述主题关键词、句间关键词和普通词的权重依次降低;

权重矩阵生成模块,用于根据所述主题关键词、句间关键词和普通词的权重生成所述被处理句子的注意力权重矩阵;

句子向量生成模块,用于根据所述注意力权重矩阵生成所述被处理句子对应的句子向量;

所述基于关键词的句子向量生成装置用于实现如权利要求1所述的方法。

8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至

6任一项所述的句子向量生成方法的步骤。

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的句子向量生成方法的步骤。