买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度学习的中文电子病历概念抽取方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度学习的中文电子病历概念抽取方法

￥15000

专利号： 2016108359011

申请人：北京工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度学习的中文电子病历概念抽取方法，其特征在于，包括以下步骤：

步骤一：获取上下文特征

采用词的独热表示(one-hot representation)对上下文所有词进行表示，利用滑动窗口的方法获取上下文特征，作为固定维度的输入向量；

步骤二：获取上下文分布式特征

将步骤一获得的上下文特征作为输入向量，输入到多层稀疏自动编码器的深层结构中，对输入数据进行自监督式(self-supervised)的特征学习，获得更高级，更抽象的上下文分布式特征；

步骤三：合并特征

将标记实体本身的标记特征、词性特征与步骤二得到的上下文分布式特征合并为整体特征；

步骤四：将整体特征输入到深度信念网络中进行参数训练；

步骤五：用训练好的深度信念网络模型对测试样本进行概念抽。

2.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法，其特征在于，步骤二中多层稀疏自动编码器由单层稀疏自动编码器堆叠而成，在具体训练过程中，对每一层的稀疏自动编码器采用梯度下降的方式进行训练，当单层输出与输入误差小于给定阀值后，停止训练，此时去掉自动编码器的解码层，保留其编码层，固定编码层的参数，并将当前编码结果作为下一个自动编码器的输入；由此逐层训练，经过多层的编码变换后，获得上下文的分布式特征。

3.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法，其特征在于，步骤四中的深度信念网络是由多个受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)堆叠而成，并在输出层构造了一个多节点的罗杰斯特回归(Logistic Regression)分类网络；将整体向量传入输入层，训练第一层的RBM；接着固定第一层RBM参数，将第一层RBM的输出作为第二层RBM的输入，训练第二层RBM；类似地固定前两层RBM的参数，完成第三层RBM的训练；将最后一层RBM的输出值作为顶端分类器的输入值。RBM不同层间节点的权值由对比散度(Contrastive Divergence,CD)算法获得；最后利用反向传播算法，比对训练样本的标记特征进行残差计算，然后有监督地微调，对整个深层架构的性能进行优化调整。整个模型中，靠近输入端的RBM训练依靠前一层的输出自监督进行；而靠近输出端分类层的训练，是依靠与原始数据对应的标记结果，有监督地梯度下降过程。

4.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法，其特征在于，步骤五采用BILOU标准准则进行中文电子病历的概念抽取，其中，U表示当前字符就是一个实体，B表示当前字符是一个实体的开始字符，I表示当前字符是一个实体的中间字符，L表示当前字符是一个实体的结尾字符，O表示当前字符在实体名称外部；有两种情况下字符或者字符串被检测为一个实体：一种是当字符di的标记是U时，di就是一个实体指称；另外一种是如果相邻的若干个字符di,di+1...di+j的标记能够组成BI*L，其中I*表示0个或者若干个I，那么di,di+1...di+j组成的字符串是一个实体。