利索能及
我要发布
收藏
专利号: 202310038699X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,构建实体识别网络,该网络包括嵌入层、图注意力层、上下文编码层以及条件随机场层,进行实体识别的过程包括以下步骤:在嵌入层中,将待识别的文本序列输入Bert模型,得到文本序列中每一个文字的特征向量,即得到字特征;通过SoftLexicon方法将与文本序列中字符匹配的词汇表示层特征向量,即得到词汇特征;

在图注意力层,令字特征指向与之对应的词汇特征构建有向图,并利用邻接矩阵保存有向图的信息,将字特征、词汇特征及其对应的邻接矩阵利用图注意力网络进行融合,得到字词特征向量,具体包括以下步骤:根据邻接矩阵中节点的连接关系,计算一个节点的相邻节点对其的注意力系数,并根据该注意力系数对节点向量表示进行加权;利用注意力系数对特征向量进行加权求和处理的过程中,采用多头注意力,即使用K组注意力层分别获取注意力系数,将K组注意力系数分别对输入特征进行加权后拼接起来作为图注意力网络的输出,表示为:k

其中, 表示第k个注意力层获得的注意力系数,W表示第k个注意力层的可训练参数;

将加权后的向量表示输入一个前馈神经网络,并采用残差连接和层归一化,得到一个节点的图注意力向量表示,即:FFN(hi′)=max(0;hi′W1+b1)W2+b2

G=LayerNorm(FFN(hi′)+hi′)

将矩阵G的第1~n列拆分出来作为待融合的字特征,其他列作为待融合的词汇特征,将两个矩阵重新进行融合,表示为:G′=M1*G[:,0:n]+M2*G[:,n:]

d′*d′ d′*d′

其中,FFN(·)表示前馈神经网络,W1、W2、b1、b2、M1∈R 和M2∈R 均是可训练的参d′*n数,LayerNorm()表示层归一化操作;G′∈R 是图注意力网络层最终的输出;

将字特征对应节点、词汇特征对应节点的图注意力向量表示进行融合,得到字词特征向量;

在上下文编码层,利用BiLSTM网络对字词特征向量进行上下文语义提取,得到上下文语义向量;

将上下文语义向量输入条件随机场层,预测得到文本序列对应的标签。

2.根据权利要求1所述的基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,对实体识别网络进行训练的过程中,对未标注的中文电子病例数据进行人工标注后,得到中文电子病例原始文本及其实体标签,并将标注的数据分为训练数据和验证数据,在每一轮训练过程中利用训练数据对实体识别网络进行训练,完成训练后利用验证数据计算实体识别网络的F1分数,并将F1分数最高的一轮训练时的网络参数作为实体识别网络的最终网络参数,完成训练。

3.根据权利要求2所述的基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,将中文电子病例原始文本表示为X={x1,...,xn},xi表示中文电子病例原始文本中第i个中文字符,i∈{1,2,…,n},n为中文电子病例原始文本中中文字符的长度;标签表示为Y={y1,...,yn},yi表示中文电子病例原始文本中第i个中文字符对应的标签,标签采用BIO格式的标签,在BIO格式的标签中B表示实体的开始、I表示除了实体开始的其他部分、O表示非实体的标签。

4.根据权利要求2所述的基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,在训练过程中,利用实体识别网络预测的标签和人工标注的标签计算损失函数,利用损失函数采用基于梯度的训练方法对实体识别网络进行参数更新,损失函数表示为:其中,ln(p(Y|X))为预测序列的似然函数; 表示标签yi转移为标签yi+1的分数;pi,y表示第i个词的第j个标签的分数; 表示预测的标签序列,Y表示人工标注的标签序列,YX表示所有可能的标注序列;n表示待识别的文本序列中字符的数量。

5.根据权利要求1所述的基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,对中文电子病例原始文本进行分类,即:若该文本中的字符处于匹配词的开头,则将该匹配词放入词集B中;若该文本中的字符处于匹配词的中间,则将该匹配词放入词集M中;若该文本中的字符处于匹配词的结尾,则将该匹配词放入词集E中;若该文本中的字符本身就是一个匹配词,则将该匹配词放入词集S中;获取每个字符的词集B、词集M、词集E以及词集S,将每个词集压缩成一个固定维度的向量,然后将四个词集拼接起来得到该字符对应的词汇特征向量,表示为:

4d

li=[v(B(xi));v(M(xi));v(E(xi));v(S(xi))],li∈R其中,li表示中文电子病例原始文本中第i个中文字符对应的词汇特征向量;v(B(xi))、v(M(xi))、v(E(xi))、v(S(xi))分别为词集B、词集M、词集E、词集S压缩成的一个固定维度的w向量;d表示一个词集压缩后的向量维度;e (w)为匹配词w的词向量表示,z(w)表示词典中匹配词w在统计数据中的出现频率,Z表示词集B、词集M、词集E、词集S这四个词集所有词的z(w)之和;s表示词集B、词集M、词集E、词集S这四个词集中的一个集合,即s∈{词集B、词集M、词集E、词集S},w表示属于某一个词集中的一个词。

6.根据权利要求1所述的基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,构有向图时,将每个词特征和词汇特征作为有向图中的节点,第i个字特征指向与它对应的第i个词汇特征,同时第i个词汇特征指向与它对应的第i个字特征,存在指向关系的两个节点之间存在边关系,两个节点之间若不存在任何一种指向关系则不存在边关系。

7.根据权利要求1所述的基于图注意力网络和字词融合的医疗命名实体识别方法,其特征在于,根据注意力系数对节点向量表示进行加权的过程包括:将一个字特征作为一个节点、一个词特征作为一个节点,若总共存在N个节点,将每个节点的维度统一为d,则第i个节点表示为hi,将所有节点的向量表示为:h={h1,h2,...,hN};

计算一个节点与其相邻节点之间的相似性系数,求得的相似系数后通过softmax操作计算出注意力系数,一个节点与其相邻节点之间的相似性系数表示为:T

eij=a[Whi||Whj],j∈Ni;

其中,a和W为可训练的参数,||表示拼接操作;Ni表示所有与节点i相邻的节点,即所有与节点i存在边关系的节点;

根据注意力系数,对特征向量进行加权求和,加权后的节点i的特征表示为:

其中,hi'为经过图注意力网络处理后第i个节点的向量表示;αij表示第j个节点对第i个节点的注意力系数;σ(·)表示Sigmoid函数。