利索能及
我要发布
收藏
专利号: 2021108462352
申请人: 辽宁工程技术大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,包括如下步骤:S1:对医疗文本数据集进行预处理;

S2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;

S3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;

S4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组;

所述步骤S4的步骤如下:

S4.1:采用单层的指针标注对句子进行主语的标记,将步骤S3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中,两个指针分别代表开始和结束,通过Sigmoid函数预测位置为主语开始位置或结束位置的概率,给定一个阈值,如果该位置的概率大于给定阈值,则标记该位置为1,表示是边界位置,否则标记为0,由此判断出主语;

S4.2:将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接,获取主语的特征向量,通过SoftMax对主语向量进行预测,判断主语的实体类型信息;

S4.3:依次取句子中的每一个主语,将主语的实体类型信息与主语向量进行连接,再将连接好的特征向量通过层归一化的方式融合到医疗文本的特征向量中,作为抽取宾语模型的输入;

S4.4:在每一种预定义的关系条件下,采用分层的指针标注,针对每一个主语标记其对应的宾语,具体操作表示为将步骤S4.3中获取的特征向量分别输入到N对二进制指针标注器中,预测宾语的头尾位置;

S4.5:判断宾语的实体类型,将实体对信息和实体类型信息作为约束条件,抽取出医疗文本中的三元组。

2.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S1的步骤如下:步骤1.1:对医疗电子病历数据集进行清洗;

步骤1.2:根据医疗领域词典进行分词,得到训练语料。

3.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S2中,通过预训练语言模型BERT动态的训练医疗文本词向量。

4.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S3中,通过多头注意力机制学习医疗文本句子的内部结构信息,注意力机制通过计算每两个词之间的相似度,挖掘出句子中的重点词汇。