利索能及
我要发布
收藏
专利号: 2022107363458
申请人: 山东师范大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于BERT和双分支网络的胃镜文本分类系统,其特征在于,包括:文本数据采集模块,被配置为获取待分类的胃镜文本数据;

文本数据切分模块,被配置为从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;

文本单元切分模块,被配置为对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;

文本单元拼接模块,被配置为在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;

文本特征提取模块,被配置为使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;

文本单元分类模块,被配置为基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。

2.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述获取待分类的胃镜文本数据,具体为:逐条获取胃镜文本数据,以列表形式存储为原始数据集;

对原始数据集中的原始待处理的每条数据执行去除特殊字符、首尾空格操作,并将英文标点符号转换为中文标点符号,得到待分类的胃镜文本数据。

3.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本,包括:基于待分类的胃镜文本数据,查找胃镜文本的切分点;

基于胃镜文本的切分点,将待分类的胃镜文本数据进行切分;

得到镜下所见文本和病理诊断文本。

4.如权利要求3所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述查找胃镜文本的切分点,具体为:对待分类的胃镜文本数据T进行切分,T由字符序列Ti组成,其中i=1,2,…,n,n为T的中所包含的字符个数;

置状态符S=0,由T1开始迭代检索;

若Ti为换行符,则置状态符S=1,否则置状态符S=0并跳出本轮迭代;

查看Ti+1是否为换行符,若Ti+1为换行符,则置状态符S=2,否则置状态符S=0并跳出本轮迭代;

查看Ti+2是否为换行符,若Ti+2为换行符,则标记Ti的位置L,否则置状态符S=0,本轮迭代完成;

所获取的三个换行符为胃镜文本的切分点。

5.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合,包括:以句号为切分点分别将镜下所见文本与病理诊断文本进行切分,获得语句集S,S由Sk构成其中k=1,2,…,m,m为镜下所见文本和病理诊断文本中的句子数量之和;

对Sk进行检索,若句子中有胃角、胃底的胃内部位关键字,将Sk的标记Fk置为1,否则置为0;

遍历所有Fk为0的句子S,将Sk拼接在St的末尾组成新的文本,其中t为[1,k-1]范围中且符合Ft=1最大的值;

此时每一条Fk=1的文本Sk均为一个文本单元,若此文本单元来自镜下所见文本,则这个文本单元为镜下所见文本单元,否则为病理诊断文本单元;

将得到所有的镜下所见文本单元和病理诊断文本单元构成文本单元集合。

6.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述MLP双分支分类网络包括共用输入层、镜下所见文本处理隐藏层、病理诊断文本处理隐藏层、镜下所见文本处理输出层以及病理诊断文本处理输出层;

所述共用输入层的作用是接收输入文本单元的特征向量集合,所述文本单元的特征向量集合包括镜下所见特征向量集合和病理诊断特征向量集合;

镜下所见文本处理隐藏层的作用是对镜下所见特征向量进行维度变换,得到镜下所见降维特征向量;

病理诊断文本处理隐藏层的作用是对病理诊断特征向量进行维度变换,得到病理诊断降维特征向量;

镜下所见文本处理输出层的作用是对镜下所见降维特征向量进行归一化,判断并输出分类结果;

病理诊断文本处理输出层的作用是对病理诊断降维特征向量进行归一化,判断并输出分类结果。

7.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,MLP双分支分类网络的损失函数定义如下:Loss=cross_entropy(p,l)其中,p为网络输出的预测标签值,l为标注文本的真实标签值。

8.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,还包括逻辑判断模块,被配置为根据分类结果,确定最终分分类结果,具体为:检查分类结果中病理诊断和镜下所见中癌症病变所涉及的部位字段;

若镜下所见涉及部位包含病理诊断的涉及部位,则认定为同一病变部位的报告;

检查同一部位的镜下所见癌症分期报告和病理诊断癌症分期报告,若有任一报告为进展期癌症,这认定此部位为进展期癌症,否则认定为早期癌症。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如下步骤:获取待分类的胃镜文本数据;

从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;

对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;

在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;

使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;

基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如下步骤:获取待分类的胃镜文本数据;

从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;

对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;

在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;

使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;

基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。