1.一种基于深度学习的中文电子病历概念抽取方法,其特征在于,包括以下步骤:
步骤一:获取上下文特征
采用词的独热表示(one-hot representation)对上下文所有词进行表示,利用滑动窗口的方法获取上下文特征,作为固定维度的输入向量;
步骤二:获取上下文分布式特征
将步骤一获得的上下文特征作为输入向量,输入到多层稀疏自动编码器的深层结构中,对输入数据进行自监督式(self-supervised)的特征学习,获得更高级,更抽象的上下文分布式特征;
步骤三:合并特征
将标记实体本身的标记特征、词性特征与步骤二得到的上下文分布式特征合并为整体特征;
步骤四:将整体特征输入到深度信念网络中进行参数训练;
步骤五:用训练好的深度信念网络模型对测试样本进行概念抽。
2.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法,其特征在于,步骤二中多层稀疏自动编码器由单层稀疏自动编码器堆叠而成,在具体训练过程中,对每一层的稀疏自动编码器采用梯度下降的方式进行训练,当单层输出与输入误差小于给定阀值后,停止训练,此时去掉自动编码器的解码层,保留其编码层,固定编码层的参数,并将当前编码结果作为下一个自动编码器的输入;由此逐层训练,经过多层的编码变换后,获得上下文的分布式特征。
3.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法,其特征在于,步骤四中的深度信念网络是由多个受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)堆叠而成,并在输出层构造了一个多节点的罗杰斯特回归(Logistic Regression)分类网络;将整体向量传入输入层,训练第一层的RBM;接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,完成第三层RBM的训练;将最后一层RBM的输出值作为顶端分类器的输入值。RBM不同层间节点的权值由对比散度(Contrastive Divergence,CD)算法获得;最后利用反向传播算法,比对训练样本的标记特征进行残差计算,然后有监督地微调,对整个深层架构的性能进行优化调整。整个模型中,靠近输入端的RBM训练依靠前一层的输出自监督进行;而靠近输出端分类层的训练,是依靠与原始数据对应的标记结果,有监督地梯度下降过程。
4.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法,其特征在于,步骤五采用BILOU标准准则进行中文电子病历的概念抽取,其中,U表示当前字符就是一个实体,B表示当前字符是一个实体的开始字符,I表示当前字符是一个实体的中间字符,L表示当前字符是一个实体的结尾字符,O表示当前字符在实体名称外部;有两种情况下字符或者字符串被检测为一个实体:一种是当字符di的标记是U时,di就是一个实体指称;另外一种是如果相邻的若干个字符di,di+1...di+j的标记能够组成BI*L,其中I*表示0个或者若干个I,那么di,di+1...di+j组成的字符串是一个实体。