利索能及
我要发布
收藏
专利号: 2022108945742
申请人: 山东大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合内容和形式多样性的中文问题生成方法,其特征在于,包括:步骤(1)利用内容选择器对原始文本进行选择得到内容文本,所述内容选择器提出了两种内容选择策略:一种是基于规则的代表性和基于句子间文本差异性的内容抽取方法;另一种是基于摘要的内容生成方法;

步骤(2)在步骤(1)得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;

步骤(3)将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合,得到最大可能的生成方法组合,通过问题生成模型得到多样的问题生成数据三元组;

步骤(4)使用智能问答模型作为生成样本过滤器,根据生成数据样本中答案类型的不同设定不同的答案比对方法:当生成数据样本中答案是实体时,则判断预测答案和生成答案是否相同,即预测答案的起始位置与终止位置与样本答案的相应位置是否相同:若预测答案与生成答案不相同,则认为该数据样本是低质量样本,进行丢弃;

当生成数据样本中的答案是句子时,则判断预测答案文本是否包含在生成答案之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置:若不包含在内,则认为该数据样本是低质量样本。

2.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,在步骤(1)中,所述基于规则的代表性和基于句子间文本差异性的内容抽取方法,包括:步骤(1‑1)基于规则的代表性的内容抽取方法包括:将原始文本分割成若干单句,采用句子与文本的语义相似度作为句子的代表性得分,scorer(si,D)定义为文档D与文档中第i条句子si的代表性评分函数:在公式(I)、(II)中,首先生成si,文档D的向量表示;W(si,D)表示两个向量间的余弦相似度;按照评分由大到小取代表性评分的前k个句子,作为最终的代表性句子集合Mk;

步骤(1‑2)基于句子间文本差异性的内容抽取方法包括:将原始文本分割成若干单句,某条句子的差异性得分为:该条句子和文本句子集合中所有句子的语义差异的最大值与最小值的差值;scored(si,D)定义为文档中第i条句子si在文档D中的差异性评分函数:        (III)

                    (IV)

在公式(III)和(IV)中,sj为文档D中第j条句子,且i≠j,首先生成si,sj的向量表示;W(si,sj)表示两个句向量间的余弦相似度;按照评分由大到小取差异性评分前m个句子,作为最终的差异性句子集合Fm;num为句子集合中句子的总数;

步骤(1‑3)对代表性和差异性内容文本标记:

将所述代表性句子集合Mk和差异性句子集合Fm取并集做句子融合,形成融合句子集合;

同时对所述融合句子集合做规则设定排序:

若某句子同时存在于代表性句子集合Mk和差异性句子集合Fm中,则该句子获得优先排序;剩余句子,则按照存在于代表性句子集合Mk中进行次优先排序;仅存在于差异性句子集合Fm中的句子进行最后排序;

最终输出内容记作Ru:

Ru=Mk∪Fm  (V);

步骤(1‑4)基于摘要的内容生成方法,采用生成式摘要的方式进行生成内容文本:使用BiLSTM结构作为摘要模型编码器,将原始文档文本以字作为基础单位进行字嵌入输入所述编码器进行编码,得到文档的向量矩阵,将输入文本记为Xn,则Xn中的第i个字符记作xi:(VI)

(VII)

(VIII)

在公式(VI)‑(VIII)中, 代表当前t时间步从前向后编码的隐藏状态; 代表当前t时间步从后向前编码的隐藏状态;ht是 和 的拼接结;

所述编码器的输出向量为:h=[h1,h2...hn](IX)在公式(IX)中,h为所有时间步隐藏状态进行拼接得到摘要模型编码器的输出;

解码器部分采用单层LSTM网络结果:

(X)

在公式(X)中,st表示在当前t时间步上解码器的隐藏状态;yt‑1表示在t‑1时刻预测生成的字,同时作为当前t时间步的输入来更新当前t时间步的隐藏状态;摘要模型编码器编码的文本信息h与当前时间步的解码隐藏状态应用注意力机制:将摘要模型编码器输出向量h进行维度转换后,与解码器的当前时间步隐藏状态相乘,得到注意力分布et:(XI)

(XII)

(XIII)

在公式(XI)‑(XIII)中,We为可训练权重向量;对et进行softmax归一化处理,得到注意T力向量αt;将注意力向量αt与摘要模型编码器的文本信息h 进行加权求和,得到上下文语境向量ct;

所述文本摘要生成器首先在标注摘要数据上进行预训练,使用预训练好的模型,对输入文本直接获得摘要文本。

3.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,所述步骤(2)对内容文本分别进行句子抽取和命名实体的抽取的方法包括:一种是粗粒度的答案提取,即对得到的内容文本进行分句处理,将每一条句子作为候选答案;

另一种答案抽取方式是细粒度抽取,即对得到的内容文本进行命名实体识别,提取文本中所包含的实体名词,对提取出来的实体文段进行问句生成。

4.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,所述步骤3)中通过问题生成模型得到多样的问题生成数据三元组的方法包括:使用基于Transformer的序列模型进行实现,(XIV)

在公式(XIV)中,U表示为问题生成模型编码器得到的隐向量序列;PTLM用来代表预训练语言模型;wC和wA分别代表输入上下文字符与答案字符;

问题生成解码器,选择Transformer网络模型改进Transformer‑XL:(XV)

(XVI)

(XVII)

(XVIII)

在公式(XV)‑(XVIII)中, 表示对两个连续片段第n‑1层隐藏层状态的拼接;SG是Stop‑Gradient的缩写,是指停止计算梯度;Γ表示当前所处的片段是第几段;n表示为网络层数;○代表两个向量的拼接; 表示第Γ‑1个片段第n‑1层隐藏层的输出; 表示第Γ个片段第n‑1层隐藏层的输出; 、 、 分别代表查询query向量、键key向量和值value向量; 、 、 为可训练权重;

所述Transformer‑XL的完整计算过程:

(XIX)

(XX)

在公式(XIX)‑(XX)中, 代表第Γ个片段第n层隐藏层中i,j的相对位置注意力机制的计算; 代表第Γ个片段第n层隐藏层i位置的查询向量的转置; 代表第ΓT T个片段第n层隐藏层j位置的键向量;u ,v 是可训练参数;Ri‑j为i,j的相对位置矩阵;i,j代表序列位置信息ID; 为可训练权重;

其余解码过程同Transformer网络模型,在此处使用Transformer‑Layer表示; 表示第Γ+1个片段第n层隐藏层的输出; 代表第Γ+1个片段第n层隐藏层的查询向量;

代表第Γ+1个片段第n层隐藏层的键向量; 代表第Γ+1个片段第n层隐藏层的值向量;

为了得到上下文、问题、答案组成的三元组,使用波束搜索从问题生成解码器中进行采样;问题生成模型使用负对数似然来计算损失函数:(XXI)

在公式(XXI)中,N表示生成问题序列的长度;pQ表示为当前时刻生成的问题序列的概率;yt表示当前t时刻的预测生成词;y

所述问题生成模型在标注问答数据上进行预训练,训练好模型参数,以对输入上下文和答案进行生成对应问题。

5.根据权利要求1所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,所述步骤(4)使用智能问答模型作为生成样本过滤器的具体步骤包括:当生成数据样本中答案是实体时,则判断预测答案A'和生成答案A是否能够完全匹配;

进一步,

若预测答案A'与生成答案A完全匹配,则认为该条生成数据合格,进行保留,即预测答案的起始位置与终止位置与样本答案的起始位置与终止位置相同;

或,若预测答案A'与生成答案A不完全匹配,则认为该条生成数据不合格,进行丢弃;

当生成数据样本中的答案是句子时,则判断预测答案文本A'是否包含在生成答案A之中,文本包含代表着预测答案的起始位置应该大于或是等于生成答案的起始位置,预测答案的终止位置应当小于或等于生成答案的终止位置;

进一步,

若包含在内,则认为该条生成数据合格,进行保留;

否则认为该生成条数据不合格,进行丢弃;

所述生成样本过滤器在标注问答数据上进行预训练,训练好模型参数,可以对输入上下文和问题进行答案抽取。

6.根据权利要求5所述一种融合内容和形式多样性的中文问题生成方法,其特征在于,针对生成数据样本中的答案是句子的数据样本:当过滤器将当前生成数据样本判定为合理时,那么将预测答案文本作为生成数据样本中的答案进行替换。

7.一种实现如权利要求1‑6任意一项所述问题生成方法的系统,其特征在于,包括:按照所述步骤(1)实现的内容选择器、按照所述步骤(2)实现的答案选择器、按照所述步骤(3)实现的问题样本生成器和按照所述步骤(4)实现的样本过滤器;

所述内容选择器包含了两种内容选择策略:

一种是融合代表性和差异性的内容抽取方法,分别采用文本关联度评分评价文本中句子的代表性,采用句子间的相似度差值评价句子的差异性,融合两种评价方法将文本中的句子筛选得到最终的内容文本;另一种基于摘要的内容生成策略,采用生成式文本摘要的方法;

所述答案选择器用于在内容选择器得到的内容文本上分别进行句子抽取和命名实体的抽取,将抽取后的文段作为问题生成的候选答案;

所述多样问题生成将原始文本和内容选择器得到的内容文本作为候选上下文集合,和答案抽取出的候选答案文本集合的笛卡尔积得到最大可能的生成方法组合;

所述样本过滤器,通过过滤器判定生成样本是否可以根据生成数据样本中的问题与上下文反向推理出答案,根据推理出的答案与生成数据中的答案对比,过滤掉低质量样本保留高质量样本。

8.一种加载有如权利要求1‑6任意一项所述方法的程序产品,包括:所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令用于执行上述的方法。

9.一种加载有如权利要求1‑6任意一项所述方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。

10.一种利用如权利要求1‑6任意一项所述方法的应用方法,其特征在于,用于实现输入是任意文本,对于同一输入文本可以输出多种问题语句;多种问题语句不仅体现在生成问题的数量,而且对于同一文本可以获得不同提问角度和表达形式的问题语句。