利索能及
我要发布
收藏
专利号: 2021101681289
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合双重分词和迭代反馈的自动应答方法,其特征在于,所述融合双重分词和迭代反馈的自动应答方法,包括:

获取提问语句及其对应的应答语句作为语料库S,对每组提问语句及其对应的应答语句进行中文分词得到分词后的语料库,将分词结果分别存入提问语句词典和应答语句词典并训练得到所有词的词向量,利用提问语句词典和应答语句词典对分词后的语料库进行序列化操作得到序列化后的语料库,将序列化后的语料库划分为第一训练集和第二训练集;

采用第一训练集对构建的应答模型进行训练,训练得到应答模型;

将第二训练集中的提问语句逐条输入到已经训练好的应答模型中,并且当应答模型的输出中包含未知符号时,对于每一个未知符号,进行如下处理:确定与未知符号对应的提问语句集合中的词语t,将所确定的词语t和应答语句词典中所有词语的词向量进行聚类,将与词语t同簇的全部词语存入到第一候选集;

当第一候选集中词语数量少于候选阈值时,对词语t进行断字操作,同时对语料库S也进行断字操作,构建出提问语句字典和应答语句字典,将词语t断字后的所有字在提问语句字典中的序号输入到训练好的应答模型中,预测出词语t中每个字对应的字符输出,从每个字对应的字符输出中选择一个字符进行排列组合连接成词语,选取其中预设数值的词语组成第二候选集;

合并第一候选集和第二候选集,组成第三候选集,对第三候选集中的所有词语根据其与词语t的语义关联度进行打分,将分值大于支持度阈值的词语放入第四候选集;

将第四候选集中的词语放入应答语句词典中,将添加第四候选集后的应答语句词典作为下一个未知符号处理时的应答语句词典,遍历第二训练集,完成对应答模型的更新;

采用更新后应答模型,对输入的提问语句进行自动应答。

2.如权利要求1所述的融合双重分词和迭代反馈的自动应答方法,其特征在于,所述将与词语t同簇的全部词语存入到第一候选集,还包括:当词语t同簇的词语少于设定的同簇数量阈值时,计算每一个词语t的簇外词语与词语t的欧式距离,将距离小于距离阈值的词语加入到词语t所在的簇内。

3.如权利要求1所述的融合双重分词和迭代反馈的自动应答方法,其特征在于,所述预测出词语t中每个字对应的字符输出,包括:取预测概率由大到小前预设数量的字符作为字符输出。

4.如权利要求1所述的融合双重分词和迭代反馈的自动应答方法,其特征在于,所述应答模型包括编码器和解码器,所述采用第一训练集对构建的应答模型进行训练,训练得到应答模型,包括:

将序列化后的第一训练提问语句集合中的每一条提问语句对应的词向量输入到编码器中,分别得到每一条提问语句对应的全部隐藏状态的一个有序集合,然后进入到解码器循环阶段;

在解码器的每一次循环中,都为所述有序集合中的所有隐藏状态重新分配权重,然后对全部隐藏状态加权求和得到对应的上下文向量,将上下文向量和上一次解码器的输出向量再次输入到解码器中进行循环;

在循环达到终止条件后,提取解码器输出的全部输出向量,将其和语料库中真实的应答语句利用交叉熵损失函数进行计算;

采用梯度下降法来确定应答模型中全部的隐藏状态和上下文向量的权重,实现对应答模型的参数优化,完成应答模型训练。

5.如权利要求4所述的融合双重分词和迭代反馈的自动应答方法,其特征在于,所述终止条件为每一个隐藏状态的权重都曾获得过一个大于或等于权重阈值的取值。

6.如权利要求1所述的融合双重分词和迭代反馈的自动应答方法,其特征在于,所述融合双重分词和迭代反馈的自动应答方法,还包括:将同一个词语t对应的所有第四候选集构建成第五候选集,对于第二训练集中生成所有未知符号的词语,将生成的所有第五候选集进行合并生成候选共现集,并在候选共现集的基础上进行扩充得到扩充集合,所述扩充集合中每个元素包括词语t及其对应的第五候选集。

7.如权利要求6所述的融合双重分词和迭代反馈的自动应答方法,其特征在于,所述采用更新后应答模型,对输入的提问语句进行自动应答,包括:将提问语句输入到更新后的应答模型,若输出结果仍然包含未知符号,则先确定其对应的提问语句中生成该未知符号的词语q;

在扩充集合中查找与词语q相关的第五候选集,如果存在相关的第五候选集,则执行如下步骤:

构建词语q对应的待检索集合,其中,当词语q与扩充集合中的词语t相同时,将词语t对应的第五候选集加入到待检索集合中;当词语q与词语t不相同,但词语q存在于词语t的第五候选集中,则将词语t放入待检索集合中;

计算待检索集合中每个词语与词语q的关联度,选择关联度最大的词语作为词语q对应的字符输出;

在扩充集合中查找与词语q相关的第五候选集,如果不存在相关的第五候选集,则执行如下步骤:

将词语q拆分成一个一个的字,然后将这些字都输入到更新后的应答模型中,在解码器的每一次循环中,输出应答语句字典中概率值最大的字作为该次循环的输出,并将其输入到下一次循环中,当解码器的循环次数与输入词语q的字数相同时,循环终止;

将历次循环的输出的字依次进行拼接,得到词语q对应的字符输出。

8.一种融合双重分词和迭代反馈的自动应答装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求7中任意一项所述方法的步骤。