1.一种基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,所述方法包括如下步骤:以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例;
基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型;
基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数;
迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。
2.根据权利要求1所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,在所述训练实例中,标注了所述连接词与所述隐式篇章关系类别的隐式篇章关系实例表示为 ;
其中, 表示所述隐式篇章关系训练实例的两个论元,表示标注的连接
词, 表示标注的隐式篇章关系类别。
3.根据权利要求2所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,在所述连接词加强的教师模型中,输入为 ,对应的代价函数表示为:其中, 为教师模型的参数, 为标注的隐式篇章关系类别 对应的独热编码,表示预测结果关于标记类别的期望值, 表示经所述连接词加强的教师模型的分类层后得到的预测结果, 为训练实例集。
4.根据权利要求2所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,在所述多任务学习学生模型中,所述学生模型总代价函数表示为:其中, 为所述学生模型总代价函数, 为学生模型的参数, 分别为基于多任务学习的代价函数和基于知识蒸馏的代价函数的权重系数;
所述基于多任务学习的代价函数包括两部分: 为对应于隐式篇章关系识别的交叉熵代价函数, 为对应于连接词分类的交叉熵代价函数;所述基于知识蒸馏的代价函数包括两部分: 为对应于特征抽取层知识蒸馏的代价函数, 为对应于分类层知识蒸馏的代价函数。
5.根据权利要求4所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,在所述多任务学习学生模型中,输入为 ,对应于隐式篇章关系识别的交叉熵代价函数表示为:其中, 为标注的隐式篇章关系类别 对应的独热编码, 表示预测结果关于标记类别的期望值, 表示经所述多任务学习学生模型分类层1后得到的对应于隐式篇章关系识别的预测结果, 为训练实例集。
6.根据权利要求4所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,所述多任务学习学生模型中对应于连接词分类的交叉熵代价函数表示为:其中, 为标注的连接词 对应的独热编码, 表示预测结果关于标注连接词的期望值, 表示经学生模型分类层2后得到的对应于连接词分类的预测结果, 为训练实例集。
7.根据权利要求4所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,所述多任务学习学生模型中对应于特征抽取层知识蒸馏的代价函数表示为:其中, 表示均方误差, 表示经所述连接词加强的教师模型特征抽取层后得到的特征, 表示经所述多任务学习学生模型的特征抽取层后得到的特征, 为训练实例集。
8.根据权利要求4所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,所述多任务学习学生模型中对应于分类层知识蒸馏的代价函数表示为:其中, 表示两个概率分布之间的KL距离, 表示经所述连接词加强的教师模型分类层后得到的预测结果, 表示经所述多任务学习学生模型分类层1后得到的预测结果。
9.根据权利要求1所述的基于知识蒸馏和多任务学习的篇章关系识别方法,其特征在于,所述双向注意力机制分类模型包括编码层、交互层、聚合层以及分类层,其中所述编码层用于学习论元中的词在上下文中的表示,所述编码层表示为:其中, 分别为论元1中的第 个词的词向量及其在上下文中的表示, 分别为论元2中的第 个词的词向量及其上下文中的表示, 和 分别是两个论元中词的个数,均为双向长短时记忆网络。
10.一种基于知识蒸馏和多任务学习的篇章关系识别装置,其特征在于,所述装置包括:训练输入模块,用于以标注了连接词与隐式篇章关系类别的隐式篇章关系实例作为训练实例;
第一构造模块,用于基于双向注意力机制分类模型构造连接词加强的教师模型,以所述连接词作为额外输入,对所述连接词加强的教师模型对应的代价函数进行迭代最小化处理直至收敛,以得到训练好的教师模型;
第二构造模块,用于基于所述双向注意力机制分类模型构造多任务学习学生模型,引入连接词分类作为辅助任务,以确定基于多任务学习的代价函数,利用所述训练好的教师模型计算训练实例的特征和预测结果,以确定基于知识蒸馏的代价函数,继而确定学生模型总代价函数;
训练输出模块,用于迭代最小化所述学生模型总代价函数直至收敛,以输出训练好的学生模型,进而用于识别测试实例的隐式篇章关系。