1.一种基于Mixup和BQRNN的法律文书的命名实体识别方法,其特征在于,包括以下步骤:
S1、使用BERT预训练模型对训练集的法律判决文书进行向量化处理,构建带有上下文语义的词向量表示;
S2、使用Mixup数据增强方法,对生成的词向量表示进行处理,在词向量表示层面对训练集规模进行扩充,生成增强后的词向量表示的训练集;
S3、使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理,提取法律文本中带有上下文特征的深层特征向量,并输出相应的实体标签序列;
S4、使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码,最后将概率最大的实体标签序列,作为训练结果输出,并生成相应训练模型;
S5、将训练模型在测试集上进行测试,并根据测试结果,调整训练模型参数信息,再次训练,直至测试集测试的指标水平趋于稳定,选取稳定前,指标性能最好的识别模型;
S6、输入中文法律文书案列,识别模型自动进行判断并输出法律文书中的法律实体。
2.根据权利要求1所述的基于Mixup和BQRNN的法律文书的命名实体识别方法,其特征在于,在对法律判决文书进行向量化处理后,随机获取2个输入的句子i和j,通过设定的融合参数λ,分别从2个句子中获取两个片段;Beta分布获取融合参数λ,通过Mixup算法,生成新的特征向量embedding以及新的标签label,并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子;最后分别将新生成的句子替换回初始的2个句子,通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练,从而做到在不增加数据量的情况下,增加训练样本数量。
3.根据权利要求1所述的基于Mixup和BQRNN的法律文书的命名实体识别方法,其特征在于,将增强数据与过采样后的原始数据进行1:1混合,生成新的训练集。
4.根据权利要求1所述的基于Mixup和BQRNN的法律文书的命名实体识别方法,其特征在于,步骤S5中具体使用Optimizer优化器调整训练模型参数信息。
5.根据权利要求1所述的基于Mixup和BQRNN的法律文书的命名实体识别方法,其特征在于,步骤S4中,使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的“B,M,E,O”实体规则和“D,T,N,L”属性规则进行解码。
6.一种基于Mixup和BQRNN的法律文书的命名实体识别系统,其特征在于,包括:
向量化模块,用于使用BERT预训练模型对训练集的法律判决文书进行向量化处理,构建带有上下文语义的词向量表示;
Mixup数据增强模块,用于使用Mixup数据增强方法,对生成的词向量表示进行处理,在词向量表示层面对训练集规模进行扩充,生成增强后的词向量表示的训练集;
BQRNN处理模块,用于使用BQRNN双向准循环神经网络对增强后的词向量表示进行处理,提取法律文本中带有上下文特征的深层特征向量,并输出相应的实体标签序列;
CRF解码模块,用于使用CRF条件随机场依据标签之间的约束关系对实体标签序列按照法律文书命名的实体属性规则进行解码,最后将概率最大的实体标签序列,作为训练结果输出,并生成相应训练模型;
模型训练模块,用于将训练模型在测试集上进行测试,并根据测试结果,调整训练模型参数信息,再次训练,直至测试集测试的指标水平趋于稳定,选取稳定前,指标性能最好的识别模型;
识别模块,用于输入中文法律文书案列,识别模型自动进行判断并输出法律文书中的法律实体。
7.根据权利要求6所述的基于Mixup和BQRNN的法律文书的命名实体识别系统,其特征在于,Mixup数据增强模块具体用于在对法律判决文书进行向量化处理后,随机获取2个输入的句子i和j,通过设定的融合参数λ,分别从2个句子中获取两个片段;Beta分布获取融合参数λ,通过Mixup算法,生成新的特征向量embedding以及新的标签label,并选取新的特征向量embedding附近距离最近的一个字符token作为新生成的句子;最后分别将新生成的句子替换回初始的2个句子,通过句子困惑度判断哪个句子符合要求并放到训练集中参与训练,从而做到在不增加数据量的情况下,增加训练样本数量。
8.根据权利要求6所述的基于Mixup和BQRNN的法律文书的命名实体识别系统,其特征在于,Mixup数据增强模块具体将增强数据与过采样后的原始数据进行1:1混合,生成新的训练集。
9.根据权利要求6所述的基于Mixup和BQRNN的法律文书的命名实体识别系统,其特征在于,模型训练模块具体使用Optimizer优化器调整训练模型参数信息。
10.一种计算机存储介质,其特征在于,其内存储有可被处理器执行的计算机程序,该计算机程序执行权利要求1‑5中任一项所述的基于Mixup和BQRNN的法律命名实体识别方法。