1.一种基于双向序列生成的汉语篇章连接词识别方法,其特征在于,应用于汉语篇章连接词识别模型,所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块;
所述方法包括:
通过句子预处理及编码模块对输入段落中的每个句子进行预处理,得到预处理后的句子,预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符,然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示;
基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息,在所有词条的初始语义向量表示的基础上,计算候选篇章连接词的最终语义向量表示;
基于双向序列生成的预测模块包括正向生成层和反向生成层,以候选篇章连接词的最终语义向量表示为输入,正向生成层基于长短时记忆网络从左到右生成篇章连接词序列,以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布,反向生成层基于长短时记忆网络从右到左生成篇章连接词序列,以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布,并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习,然后对正向生成层和反向生成层计算的概率分布求平均值,将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果,从而识别出篇章连接词;
在后处理模块中,以基于双向序列生成的预测模块识别出的篇章连接词为输入,利用预定义的启发式规则对篇章连接词进行配对,以识别出输入段落中的复合篇章连接词;
基于双向序列生成的预测模块满足以下条件式:
;
;
其中, 表示正向预测时第 个候选篇章连接词为篇章连接词的概率分布, 表示反向预测时第 个候选篇章连接词为篇章连接词的概率分布, 表示第 个候选篇章连接词为篇章连接词的最终预测结果, 表示归一化指数函数, 和 为正向生成层中需要学习的参数, 为从左至右的长短时记忆网络, 和 为 中的隐状态, 是正向预测时基于注意力机制计算的输入段落中与第 个候选篇章连接词相关的上下文信息的向量表示, 表示正向预测时前一预测结果的向量表示,和 为反向生成层中需要学习的参数, 为从右至左的长短时记忆网络, 和为 中的隐状态, 是反向预测时基于注意力机制计算的输入段落中与第个候选篇章连接词相关的上下文信息的向量表示, 表示反向预测时前一预测结果的向量表示;
通过互学习代价增强的训练模块满足以下条件式:
;
为训练基于Longformer的段落编码模块和正向生成层的代价函数, 为训练反向生成层的代价函数, 为基于Longformer的段落编码模块和正向生成层中的参数的集合,为反向生成层中的参数的集合,D为人工标注的训练数据集,CE为交叉熵代价计算函数,为第 个候选篇章连接词为篇章连接词的真实概率分布, 和 为权重系数,MSE为基于均方误差的互学习代价计算函数。
2.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,句子预处理及编码模块满足以下条件式:;
其中, 为预训练语言模型, 为预处理后的第 个句子, 为 中所有词条的初始语义向量表示构成的矩阵。
3.根据权利要求2所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,基于Longformer的段落编码模块满足以下条件式:;
其中, 分别为输入段落P中第1个、第 个、第K个候选篇章连接词的最终语义向量表示, 为由输入段落P中所有词条的最终语义向量表示构成的矩阵,为候选篇章连接词在输入段落P中位置的指示矩阵,Longformer表示使用Longformer模型进行编码, 为预处理后的第1个句子中所有词条的初始语义向量表示构成的矩阵, 为预处理后的第 个句子中所有词条的初始语义向量表示构成的矩阵,符号 表示矩阵或向量的拼接操作, 表示掩码矩阵, 为由0和1构成的 矩阵, 为输入段落P中词条的总数,K为输入段落中候选篇章连接词的总数,I为输入段落中句子的总数。
4.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,在基于Longformer的段落编码模块中,将预处理后的每个句子中开头的全局占位符定义为全局词条,并将输入段落中所有的候选篇章连接词定义为全局词条,将输入段落中除全局词条外的其他词条定义为局部词条,其中,全局词条与输入段落中的每个词条进行信息交互,局部词条只与其前后 个词条以及全局词条进行信息交互。
5.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法,其特征在于,预定义的启发式规则包括以下三个规则:规则1:如果一个句子中的两个或多个篇章连接词可以配对,即在篇章连接词集合中存在相应的复合篇章连接词,则确定这两个或多个篇章连接词构成一个复合篇章连接词;
规则2:如果相邻句子中的两个或多个篇章连接词可以配对,且各自位于相应句子的句首,则确定这个两个或多个篇章连接词构成一个复合篇章连接词;
规则3:如果两个复合篇章连接词覆盖的文本片段有部分重合,则舍弃位于后面的复合篇章连接词。