利索能及
我要发布
收藏
专利号: 2021108854289
申请人: 辽宁大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于强化学习的多样性对话数据增强方法,其特征在于,包括以下步骤:

1)给定输入的对话历史,收集相同对话历史下不同语义集合或者不同表达的回复集合,这两个集合被用于生成对话回复的语义和表达隐含空间,从这两个隐含空间分别采样,结合对话历史编码信息生成最终的回复;

使用H表示对话历史,R表示对应的真实回复,首先使用三个不同的编码器对对话历史,语义,表达进行编码表示,编码器采用transformer进行编码:c

H=E(H)+G(E(H)+MultiHead(E(H),E(H),E(H)        (1)给定所学到的对话语义,表达的向量表示,然后采用自编码器的方式得到隐含的语义,表达分布z1和z2;具体的,假设z1和z2具有以下的格式:其中, 分别是对话历史对应的语义,表达的向量表示;μ表示期望,σ表示标准差;

对于 和 计算如下所示,其中W表示权重,b表示偏置:

2 x

logσ=H·Wσ+bσ             (4)z=μ+σ⊙∈                      (5)c

给定z1,z2以及H,生成最终的回复:

使得语义隐含空间的表示和表达隐含空间的表示尽可能的远离,使得模型尽可能的学习到解耦合的表示,最终的目标函数为:同时,该步骤会生成本阶段的对话回复;

2)使用两个独特的判别器,对生成的句子的语义和表达的多样性进行判别;

根据步骤1)生成的回复,通过语义多样性打分函数和表达多样性打分函数进行打分:(1)语义多样性打分函数:

首先在训练数据集上对句子以及相应的语义标签预训练分类器,在打分阶段,利用预训练的分类器给正确的对话以及生成的回复打语义标签,同时使用对话历史和回复计算余弦相似度:如果正确的和生成的对话回复语义标签一致,则给分为0;如果语义标签不一致,并且对话历史和生成的回复的余弦相似度高于正确的回复的余弦相似度,则给分为1;如果语义标签不一致,并且对话历史和生成的回复的余弦相似度小于正确的回复的余弦相似度,则给分为‑1;

(2)表达多样性打分函数:

采用回复多样性评测指标distinct进行打分,通过计算生成的回复中不同的单词数量来计算表达多样性的程度,为了比较太长句子的生成,利用句子长度进行正则化,作为最终表达多样性的打分函数;

根据语义多样性以及表达多样性的打分,不断反馈给上一步骤的模型,更新参数θ;

3)不断循环训练模型,最终得到高质量的多样性对话样本。