1.基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,包括以下步骤:S1、收集中文电子病历文本数据,并构造医疗字典:
S2、将医疗字典中的医疗概念引入分词器LTP中,对中文电子病历文本数据进行分词,并输入预训练语言模型RoBERTa‑wwm‑ext‑large进行特征提取,获得对应的医疗词嵌入;
S3、针对中文电子病历文本数据中的每一个词,在医疗字典中查询该词的医疗概念嵌入,并将其与该词的医疗词嵌入按位相加,得到最终的词嵌入;
S4、通过BiLSTM模型捕获中文电子病历文本数据中每个词的上下文语义,同时查询医疗字典生成掩码注意力向量,进而计算与医疗字典中医疗概念相匹配的注意力权重,得到该词的综合语义特征表示;
S5、将综合语义特征表示输入到全局指针网络中,计算命名实体得分,得到命名实体类别;
所述步骤S5具体为:
S51、对综合语义特征中的每一个嵌入表示ei按照如下公式进行变换,得到其作为第α种类命名实体的起始位置表示qi,α和终止位置表示ki,α;
qi,α=Wq,αei+bq,α
ki,α=Wk,αei+bk,α
式中,Wq,α和Wk,α表示模型训练中可学习的参数,bq,α和bk,α表示模型的偏置项;
S52、根据起始位置表示qi,α和终止位置表示ki,α,计算从i到j的连续片段的一个类型为α的命名实体的得分sα(i,j);
式中,Ri表示第i个词的旋转位置编码,Rj表示第j个词的旋转位置编码,Rj‑i表示医疗文本中第i个词到第j个词的相对旋转位置编码,上标T表示矩阵转置运算。
2.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S1中,所述医疗字典中的数据包括医疗实体名和中文电子病历中的医疗概念名。
3.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S2中,所述预训练语言模型RoBERTa‑wwm‑ext‑large为基于中文电子病历文本数据进行微调后的模型。
4.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S3中,所述医疗概念嵌入为中文电子病历文本数据中每个词所属的同一医疗概念中所有医疗词嵌入的均值。
5.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S4具体为:S41、通过BiLSTM模型捕获中文电子病历文本数据中每个词的上下文语义,形成医疗文本中各词的特征表示;
S42、查询医疗字典,匹配文本中各词的医疗概念,生成掩码注意力向量;
S43、基于掩码注意力向量,计算各词的注意力权重;
S44、基于各词的注意力权重,计算对应的嵌入表示,进而融合形成综合语义特征。
6.根据权利要求5所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S42,在生成的掩码注意力向量中,出现在医疗字典中的词所在位置的掩码为1,其余词所在位置的掩码为0。
7.根据权利要求5所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S43中,计算文本中各词的注意力权重的公式为:式中, 表示掩码运算后得到的嵌入表示,Oi和Oj表示BiLSTM模型输出的第i个和第j个词的嵌入表示,Tj表示Oj对应的掩码注意力向量, 表示掩码运算,Wu表示模型中学习的参数,[;]表示连接操作,αi表示Oj相对于Oi的注意力权重,tanh()表示双曲正切函数,是一种非线性激活函数,ui和uj分别表示第i个和第j个医疗词嵌入经过非线性变换后的嵌入表示,uik表示第i个词所在医疗概念中第k个词的uk,n为第i个词所在医疗概念中词的个数。
8.根据权利要求7所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S44中,词的嵌入表示ei的计算公式为:ei=tanh(We[ci;Oi])
式中,We表示模型中学习的参数,下标j表示医疗概念中第j个词,n为第i个词所在医疗概念中词的个数。