1.一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,该方法具体包括以下步骤:S1:生成文档结构树:利用自定义文档结构树算法将公告文本转化为层级分明树形结构;
S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;
S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;
S4:训练词向量:预训练上下文的词向量,并利用卷积神经网络(Convolutional Neural Network,CNN)训练字符词向量;
S5:抽取结构化信息:构建基于双向长短时记忆神经网络‑条件随机场(Bidirectional‑Long Short‑Term Memory‑Conditional Random Field,Bi‑LSTM‑CRF)的深度学习模型,训练该模型进行字段识别;
步骤S1中,所述自定义文档结构树生成算法具体为:输入:公告文本;
输出:深度序列表示的树结构;每个节点node包括:节点标题title、节点深度di和节点m内容text;di越大表示层级越高,noden表示第n个节点的第m个子节点;
S11:若目录存在,提取公告文本自带的目录,记录各个标题的节点深度di,其中di=1,
2,…,n,添加至树结构;若不存在目录,记正文第一条符合节点标题规则为rule1,继续遍历正文找到所有符合rule规则的段落,视为一级节点,添加至树结构;生成初步树,记为tree0;
S12:按序遍历tree0,取相邻节点noden,noden+1,其中dn<=dn+1,记录两节点在节点标题规则集中对应的节点标题规则及节点深度d,生成已有节点规则‑深度集{rule‑d}0;
S13:遍历{noden,noden+1}之间的文本内容,若某段落符合节点标题规则集中的节点标m题规则rulex且不在{rule‑d}0中,记为noden的子节点noden ,深度dm=dn+1,追加至以noden为根节点的子树tree1中,rulex和dm加入{rule‑d}1中,执行步骤S14;若在{rule‑d}0中,重复步骤S12;
S14:若某段落符合节点标题规则集中的节点标题规则rulex,若在{rule‑d}0中,重复步k骤S12;rulex不在{rule‑d}0且不在{rule‑d}1中,记nodem ,加入tree1,深度dk=max(d:m
{rule‑d}1)+1,rulex和dk加入{rule‑d}1中;rule不在{rule‑d}0且在{rule‑d}1中,记noden+1,深度dm+1=d:{rulex‑d},加入tree1;
S15:将步骤S14得到的各节点子树tree1按顺序及深度加入tree0中,并将正文目录之前的“声明”、“重大提示”的章节补充至tree0中,将各个节点的节点内容补充到树中,生成一颗完整的文档结构树。
2.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,所述节点标题规则集具体为:
1)^第"+chineseNumber+"章
2)^第"+chineseNumber+"节
3)"+chineseNumber+"、
4)^(\\(|()"+chineseNumber+"(\\)|));
5)^\\d{1,2}、
6)^(\\(|()\\d{1,2}(\\)|))其中,chineseNumber=((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。
3.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S3中,所述抽取信息句具体包括以下步骤:S31:定义句子触发词集,进行同义表述的拓展;
S32:根据触发词在句子中的表述,分析语法结构,定义局部结构规则;
S33:将节点内容按句分割,利用正则表达式进行规则匹配。
4.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S4中,所述训练词向量具体包括以下步骤:S41:对于信息句,利用Jieba进行分词,并加入领域知识词典,保证分词正确性;
S42:利用Word2vec从大规模背景语料中训练出语义特征的词向量;
S43:利用CNN加入领域先验知识训练出基于字的形态特征词向量;
S44:将两种词向量进行组合作为深度学习模型的输入。
5.根据权利要求4所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,生成大规模高质量可供深度学习模型训练的标注语料,具体为:
1)规则自动生成初步小规模标注语料;
2)小规模语料进行模型训练;
3)未标注语料进行模型识别;
4)人工进行审查,进行人工修正;
5)迭代2)至4)多次,直至生成高质量可训练语料。
6.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S5中,所述构建基于Bi‑LSTM‑CRF的深度学习模型,具体包括:模型的第一层是利用Word2Vec预训练的词向量;
模型的第二层是Bi‑LSTM层,自动提取句子特征;将句子中每个词的词向量序列作为Bi‑LSTM的各个时间状态的输入,再将正向的LSTM输出的隐状态序列和反向LSTM输出的各个位置隐状态序列进行位置的拼接模型的第三层是CRF层;所述CRF层的参数是一个矩阵A,Ai,j表示的是从第i个标签到第j个标签的转移得分。
7.根据权利要求6所述的一种基于文档结构与深度学习的金融类公告信息抽取方法,其特征在于,步骤S5中,所述训练基于Bi‑LSTM‑CRF的深度学习模型进行字段识别具体为:给定输入序列x,得到标签预测y,定义式(1)为得分函数:由式(1)可以看出,输出序列的得分式由各个位置的得分总和,包括两部分:Bi‑LSTM的输出Pi,CRF的转移矩阵A;利用Softmax得出归一化的概率,如下式:模型训练时,最大化对数似然函数,如下式:
log(P(y|x))=s(x,y)‑log(∑y′exp(s(x,y'))) (3)模型在解码预测时,使用Viterbi算法求解最优路径,如下式: