利索能及
我要发布
收藏
专利号: 2021107019329
申请人: 武汉工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:包括以下步骤:S01:向问答系统输入复合问题;

S02:采用Bi‑LSTM模型解析复合问题并分解为n个子问题;具体步骤为:S021:采用Bi‑LSTM模型将复合问题分类为嵌套类复合问题、句法并列类复合问题、修饰并列类复合问题、域约束修饰类复合问题、冗余类复合问题;

嵌套类复合问题是能够拆分为多层子问题的问题;

句法并列类复合问题是能够拆分为多个独立的子问题的问题;

修饰并列类复合问题是多个修饰词对同一对象进行约束的问题;

域约束修饰类复合问题是多个子问题被同一约束成分支配的问题;

冗余类复合问题是去除冗余信息,仍能得到原问句答案的问题;

S022:按复合问题的种类选择对应的问题解析方法,将复合问题分解为n个子问题;

S03:将n个子问题组成子问题集;

S04:提取并分析子问题集的第i个子问题的关键信息,i=1,2,…,n;

S05:根据第i个子问题的关键信息在中文知识图谱中搜索答案;

S06:在问答系统返回的多个相关的子答案中抽取m个子答案;

S07:将m个子答案组成第i个子问题对应的答案集;

S08:对答案集中的所有答案进行摘要得到答案集的摘要答案,将摘要答案作为第i个子问题对应的子答案;

S09:重复步骤S04~S08直至子问题集遍历完成;

S10:合并每个子问题对应的子答案,得到原复合问题的子答案集;

S11:将子答案集中的答案组合生成原复合问题的最终答案。

2.根据权利要求1所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S021中,具体步骤为:S0211:按从前往后和从后往前两种方向采用Bi‑LSTM模型将复合问题的词序列编码为词向量;

S0212:将两种方向的编码的最后一个隐藏向量拼接起来作为复合问题的向量;

S0213:通过线性分类器分类复合问题的向量;

S0214:通过Softmax函数将分类后的向量归一化为取相应类别标签的概率,概率最大的标签则为复合问题的类型。

3.根据权利要求2所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S0211中,具体步骤为:采用随机初始化方法进行词嵌入,设词向量的维度‑3为256,学习率为10 ;

所述的步骤S0212中,具体步骤为:在进行问句分类训练时,设记忆单元模块LSTM的隐藏层维度为300。

4.根据权利要求1所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S021中,嵌套类复合问题包括多层子问题,Q={SubQ1、SubQ2},作答方向为从内层向外;取所有子答案的交集SubA2=SubA1∩SubQ2,作为答案A=SubA2;

句法并列类复合问题包括多个独立的子问题,Q={SubQ1、SubQ2};取所有子答案的并集为答案A=SubA1∪SubA2;

修饰并列类复合问题采用多个修饰词对同一对象进行约束,Q={SubQ1、SubQ2};取所有子答案的交集为答案A=SubA1∩SubA2;

域约束修饰类复合问题包括被同一约束成分支配的多个子问题,Q={SubQ1、SubQ2};提取关键词并在中文知识图谱中搜索子答案SubA1=C∩SubQ1,SubA2=C∩SubQ2;取所有子答案的交集为答案A=SubA1∩SubA2;

冗余类复合问题在去除冗余信息后仍能得到原问句答案,数学表达式为Q={SubQ1},SubQ1=Q‑R,A=SubA1。

5.根据权利要求4所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S021中,具体步骤为:若复合问题为域约束修饰类复合问题,则采用端到端模型Seq2seq进行端到端问句分解;

若复合问题为原子类问题,则判断输入问答系统的为非复合问题。

6.根据权利要求1所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S04中,具体步骤为:S041:对子问题进行分类;

S042:提取第i个子问题的关键信息,包括实体和实体关系信息;

S043:拓展第i个子问题的关键信息。

7.根据权利要求1所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S06中,具体步骤为:S061:在问答系统返回的多个相关的子答案中查找候选答案;

S062:对候选答案进行权重排序;

S063:返回m个子答案。

8.根据权利要求1所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法,其特征在于:所述的步骤S11中,具体步骤为:S111:对子答案集中的子答案进行语义融合;

S112:合并子答案集中的子答案;

S113:对合并后的答案进行语义消歧。

9.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求8中任意一项所述的一种基于Bi‑LSTM和中文知识图谱的复合问答方法。