买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于文档结构与深度学习的金融类公告信息抽取方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于文档结构与深度学习的金融类公告信息抽取方法

￥31200

专利号： 2018115493141

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2024-12-10

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，该方法具体包括以下步骤：S1：生成文档结构树：利用自定义文档结构树算法将公告文本转化为层级分明树形结构；

S2：抽取节点信息：基于文档结构树设计便捷的查找节点信息的方法，利用规则提取树的节点信息；

S3：抽取信息句：对于已抽取到的节点信息，定义句子触发词集，在句子触发词集的基础上，拓展包含触发词集的局部句子结构规则，从而抽取符合规则的信息句；

S4：训练词向量：预训练上下文的词向量，并利用卷积神经网络(Convolutional Neural Network，CNN)训练字符词向量；

S5：抽取结构化信息：构建基于双向长短时记忆神经网络‑条件随机场(Bidirectional‑Long Short‑Term Memory‑Conditional Random Field，Bi‑LSTM‑CRF)的深度学习模型，训练该模型进行字段识别；

步骤S1中，所述自定义文档结构树生成算法具体为：输入：公告文本；

输出：深度序列表示的树结构；每个节点node包括：节点标题title、节点深度di和节点m内容text；di越大表示层级越高，noden表示第n个节点的第m个子节点；

S11：若目录存在，提取公告文本自带的目录，记录各个标题的节点深度di，其中di＝1,

2,…,n，添加至树结构；若不存在目录，记正文第一条符合节点标题规则为rule1，继续遍历正文找到所有符合rule规则的段落，视为一级节点，添加至树结构；生成初步树，记为tree0；

S12：按序遍历tree0，取相邻节点noden，noden+1，其中dn<＝dn+1，记录两节点在节点标题规则集中对应的节点标题规则及节点深度d，生成已有节点规则‑深度集{rule‑d}0；

S13：遍历{noden，noden+1}之间的文本内容，若某段落符合节点标题规则集中的节点标m题规则rulex且不在{rule‑d}0中，记为noden的子节点noden ，深度dm＝dn+1，追加至以noden为根节点的子树tree1中，rulex和dm加入{rule‑d}1中，执行步骤S14；若在{rule‑d}0中，重复步骤S12；

S14：若某段落符合节点标题规则集中的节点标题规则rulex，若在{rule‑d}0中，重复步k骤S12；rulex不在{rule‑d}0且不在{rule‑d}1中，记nodem ，加入tree1，深度dk＝max(d:m

{rule‑d}1)+1，rulex和dk加入{rule‑d}1中；rule不在{rule‑d}0且在{rule‑d}1中，记noden+1，深度dm+1＝d:{rulex‑d}，加入tree1；

S15：将步骤S14得到的各节点子树tree1按顺序及深度加入tree0中，并将正文目录之前的“声明”、“重大提示”的章节补充至tree0中，将各个节点的节点内容补充到树中，生成一颗完整的文档结构树。

2.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，所述节点标题规则集具体为：

1)^第"+chineseNumber+"章

2)^第"+chineseNumber+"节

3)"+chineseNumber+"、

4)^(\\(|()"+chineseNumber+"(\\)|))；

5)^\\d{1,2}、

6)^(\\(|()\\d{1,2}(\\)|))其中，chineseNumber＝((一|二|三|四|五|六|七|八|九|十)|(十(一|二|三|四|五|六|七|八|九))|((二|三|四|五|六|七|八|九)十)|((一|二|三|四|五|六|七|八|九)十(一|二|三|四|五|六|七|八|九)))。

3.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S3中，所述抽取信息句具体包括以下步骤：S31：定义句子触发词集，进行同义表述的拓展；

S32：根据触发词在句子中的表述，分析语法结构，定义局部结构规则；

S33：将节点内容按句分割，利用正则表达式进行规则匹配。

4.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S4中，所述训练词向量具体包括以下步骤：S41：对于信息句，利用Jieba进行分词，并加入领域知识词典，保证分词正确性；

S42：利用Word2vec从大规模背景语料中训练出语义特征的词向量；

S43：利用CNN加入领域先验知识训练出基于字的形态特征词向量；

S44：将两种词向量进行组合作为深度学习模型的输入。

5.根据权利要求4所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，生成大规模高质量可供深度学习模型训练的标注语料，具体为：

1)规则自动生成初步小规模标注语料；

2)小规模语料进行模型训练；

3)未标注语料进行模型识别；

4)人工进行审查，进行人工修正；

5)迭代2)至4)多次，直至生成高质量可训练语料。

6.根据权利要求1所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S5中，所述构建基于Bi‑LSTM‑CRF的深度学习模型，具体包括：模型的第一层是利用Word2Vec预训练的词向量；

模型的第二层是Bi‑LSTM层，自动提取句子特征；将句子中每个词的词向量序列作为Bi‑LSTM的各个时间状态的输入，再将正向的LSTM输出的隐状态序列和反向LSTM输出的各个位置隐状态序列进行位置的拼接模型的第三层是CRF层；所述CRF层的参数是一个矩阵A，Ai,j表示的是从第i个标签到第j个标签的转移得分。

7.根据权利要求6所述的一种基于文档结构与深度学习的金融类公告信息抽取方法，其特征在于，步骤S5中，所述训练基于Bi‑LSTM‑CRF的深度学习模型进行字段识别具体为：给定输入序列x，得到标签预测y，定义式(1)为得分函数：由式(1)可以看出，输出序列的得分式由各个位置的得分总和，包括两部分：Bi‑LSTM的输出Pi，CRF的转移矩阵A；利用Softmax得出归一化的概率，如下式：模型训练时，最大化对数似然函数，如下式：

log(P(y|x))＝s(x,y)‑log(∑y′exp(s(x,y'))) (3)模型在解码预测时，使用Viterbi算法求解最优路径，如下式：