1.基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法,其特征在于,首先经过动态引入的SW‑BiLSTM‑CRF模型;然后使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现BcBERT,最终实现BcBERT‑SW‑BiLSTM‑CRF的模型,所述SW‑BiLSTM‑CRF模型,主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块,所述输入层的字需要提前做如下处理:以BIO标注体系标注的文本文档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其中还需要用特殊字符0来补齐句子,使每条句子长度一致,词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列,词的边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实体的始末,以及实体的中间位置,词信息的处理和字处理的方式相同,所述数据投射层工作是将特征提取层得到的特征向量进行维度投射,特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一个全连接层将该高维度向量投射到标签维度上,向量大小为[批大小(batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况,所述输出层的主要工作是根据数据投射层得到的标签得分,选择分数最高的标签作为最终预测的标签,但是仅仅依靠得分进行预测会存在标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约束标签的转移n关系,修正预测结果,CRF算法以路径为单位,考虑路径的概率,将序列标注看作1个k的分类问题,k是类别个数,n是句子长度,实际训练过程中采用最大似然估计方法来寻找最优的标注序列,所述BcBERT‑SW‑BiLSTM‑CRF模型中词汇增强的部分具体为:当观测序列,即输入序列为X=x0,x1,…,xn,状态序列,即输出标签序列为Y=y0,y1,…,yn的概率为:
z(x)=∑yexp(∑kλk∑itk(yi‑1,yi,x,i)+∑lμl∑isl(yi,x,i))
上述公式实现了从特征到概率的转化,
tk(yi‑1,yi,x,i)是定义在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的特征函数,代表状态特征,特征函数的取值为1或0,λk和μl分别是两个特征对应的权重,z(x)是规范化因子,对y的所有可能取值求和,训练过程中,采用最大似然估计得到损失函数:loss=‑log(P(Y=y|x)),使用梯度下降算法进行学习,最终选取得分最高的Y作为X的标注序列,BcBERT‑SW‑BiLSTM‑CRF模型的具体实现的过程:步骤1:选择BIO的标注方式;
步骤2:提出了基于词汇增强的SW‑BiLSTM‑CRF模型,向BiLSTM‑CRF模型中动态引入了词的边界信息和词的嵌入信息;
步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语料输入构造BERT输入特征;
使用BERT预训练,将已有的部分土木建筑信息文本语料输入构造BERT输入特征,BERT输入包含三个嵌入特征,分别是字嵌入、上下句嵌入和位置嵌入,字嵌入构造采用WordPiece过程,将输入的词拆开,拆词过程采用双字节编码实现,具体地,在包含英文单词的中文文本中,将中文部分分割为单字,英文单词分割为子词,分割好的块是BERT语言模型训练时遮盖的最小单位,同时,将拼接的两个句子使用特殊符号[SEP]进行区分,第二个句子末尾也会加上该符号,[CLS]是模型表示开始的特殊符号,表示句首位置;
上下句嵌入是针对句子关系判断类任务的输入构造,EA部分是必须的,EB部分是可选的,0表示第一句话,1表示第二句话,监督信息在[CLS]标志中体现,如果后者为空则变成单句分类任务,位置嵌入是字在句子中的绝对位置信息,且BERT支持的序列长度上限为512,最后,将这三层嵌入编码相加作为输入表征向量,持久化到TFRecord格式的二进制文件中;
步骤4:使用BERT作为文本编码器,在通用领域预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于BcBERT‑SW‑BiLSTM‑CRF的命名实体识别模型;
使用BERT作为文本编码器,在通用领域预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于BcBERT‑SW‑BiLSTM‑CRF的命名实体识别模型,模型主要由预训练文本表征层和完成命名实体识别任务的特征提取层两个模块构成,BcBERT是进行了建筑语料文本深度训练的领域预训练模型,融合了与地铁设计规范相关的无监督建筑语料文本的相关知识,使预训练语言模型具备一定的领域适配性,更适合下游地铁设计规范的命名实体识别任务。
2.根据权利要求1所述基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法,其特征在于,所述查找层主要工作是将输入层的句子编号序列用向量进行表征;提前准备一个字、词边界和词对应的三个向量矩阵,其中字向量矩阵中,矩阵的行表示一个个字的表征向量;所述表征向量采用随机初始化的方法,从一个区间均匀分布中生成随机数字,或者是预训练得到的向量文件,如果是后者,则需要使用输入层中预处理得到的编号到字的字典,查出编号对应的字,然后去预训练向量文件中查找对应的向量,最后将字、词边界和词信息进行拼接作为下一层的输入。
3.根据权利要求1所述基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法,其特征在于,所述特征提取层主要工作是基于给定的核心特征集合,字、词边界和词,让模型自动选择更重要的特征组合或者学习更深层次的抽象特征,为了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和后向的链式结构,前向LSTM用于获取过去时刻对当前时刻的影响,而后向则获取未来时刻对当前时刻的影响,将每个时刻的正反向输出进行拼接,得到这一层的输出向量。