利索能及
我要发布
收藏
专利号: 2018101357476
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种聊天应答方法,其特征在于,该方法包括:

预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;

第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;

问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;

第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;

答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;

答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。

2.如权利要求1所述的聊天应答方法,其特征在于,所述对所述会话问题进行预处理包括:对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;

对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;

对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;

根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。

3.如权利要求1所述的聊天应答方法,其特征在于,所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;

将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;

分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;

所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:

采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;

分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。

4.如权利要求1所述的聊天应答方法,其特征在于,所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;

若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;

所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;

若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。

5.如权利要求1所述的聊天应答方法,其特征在于,所述为问答知识库构建倒排索引包括:对问答知识库中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;

对问答知识库中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;

将所有倒排记录表合并为最终的倒排索引。

6.如权利要求1所述的聊天应答方法,其特征在于,所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。

7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括聊天应答程序,该聊天应答程序被所述处理器执行时实现如下步骤:预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;

第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;

问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;

第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;

答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;

答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。

8.如权利要求7所述的电子装置,其特征在于,所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;

将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;

分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;

所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:

采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;

分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。

9.如权利要求8所述的电子装置,其特征在于,所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;

若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;

所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;

若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括聊天应答程序,所述聊天应答程序被处理器执行时,实现如权利要求1至6中任一项所述的聊天应答方法的步骤。