利索能及
我要发布
收藏
专利号: 2018116541335
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于双向切片门控循环单元BiSGRU和注意力机制Attention的并购重组类公告信息抽取方法,其特征在于,包括:步骤1,采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系,制定各个字段抽取的规则模板;

步骤2,使用规则逻辑运算抽取引擎解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合,以抽取的结果实现对文本的重构;

步骤3,制定标注标签,标注语料,使用语料训练序列标注模型;其中,所述序列标注模型为BiSGRU‑Attention序列标注模型;

步骤4,使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库。

2.根据权利要求1所述的方法,其特征在于,步骤1所述规则标签体系中标签符号分为三类:普通规则符、特殊限制符、标识符;所述规则模板的制定由所述规则标签体系约束,且具有特定的规则逻辑运算组合;所述规则标签符号说明如表1:表1规则标签符号说明

3.根据权利要求1所述的方法,其特征在于,步骤2所述使用规则逻辑运算抽取引擎解析规则模板包括:步骤2‑1,规则组合中缀表达式转换为逆波兰式,并在末尾加入结束符“#”;

步骤2‑2,字符入RS,判断当前字符是否为结束符“#”,是则转到步骤2‑7,否则转到步骤

2‑3;

步骤2‑3,判断当前入RS的字符是否为操作符op,是则转入步骤2‑4,否则跳回步骤2‑2;

步骤2‑4,判断op是否为单目运算符not,是则RS出栈一次,记为操作数a,转到步骤2‑5;

否则RS出栈两次,记为操作数b和d,转到步骤2‑6;

步骤2‑5,按照单目运算符的运算规则,分为以下4种情况进行运算:

①若a为hr,则计算H op H(a),结果入栈HS,h入栈RS;②若a为cr,则计算C op C(a),结果入栈CS,c入栈RS;③若a为h,则HS出栈;④若a为c,则CS出栈;转回步骤2‑2;

步骤2‑6,按照双目运算符的运算规则,分为以下9种情况进行运算:

①若b和d都为hr,则计算H(b)op H(d),结果入栈HS,h入栈RS;②若b和d都为cr,则计算C(b)op C(d),结果入栈CS,c入栈RS;③若b和d都为h,则HS出栈H_1和H_2,计算H_2 op H_1,结果入栈HS,h入栈RS;④若b和d都为c,则CS出栈C_1和C_2,计算C_2 op C_1,结果入栈CS,c入栈RS;⑤若b为h,d为hr,则HS出栈H_1,计算H_1 op H(d),结果入栈HS,h入栈RS;⑥若b为c,d为cr,则CS出栈C_1,计算C_1 op C(d),结果入栈CS,c入栈RS;⑦若b为hr,d为cr,计算C(H(b))op C(d),结果入栈CS,c入栈RS;⑧若b为h,d为cr,则HS出栈H_1,计算C(H_1)op C(d),结果入栈CS,c入栈RS;⑨若b为h,d为c,则HS出栈H_1,CS出栈C_1,计算C(H_1)op C_1,结果入栈CS,c入栈RS;转回步骤2‑2;

步骤2‑7,RS出栈,计为操作数e,若e为c,则返回CS的栈值C_1;若e为cr,则返回C(e);若为其他,则返回空值;

其中RS:操作栈;HS:标题栈;h:标题栈操作数;hr:标题规则操作数;CS:内容栈;c:内容栈操作数;cr:内容规则操作数;H:全文标题集合;C:全文句子集合;H(·):从H中抽取出的标题集合;C(·):从C中抽取出的标题集合。

4.根据权利要求1所述的方法,其特征在于,步骤3所述制定标注标签包括:抓取上市公司并购重组类公告文本作为数据集,按照8:1:1的比例划分为训练集、开发集和测试集;使用BIO标签机制标注标签,除了B标签、I标签、O标签,增加E标签和S标签对包含“成交金额”、“交易标的”、“重组类型”、“标的行业”、“现金对价来源”、“配套融资金额”、“股票定价方式”、“收购方式”、“评估基准日”、“评估方法”、“资产评估值”、“资产账面值”在内的12个字段进行语料标注,用于对标签实体的解析;其中B标签表示实体的第1个词,E标签表示实体的最后1个词,B标签和E标签之间由I标签表示,S标签表示单个词的实体,O标签表示其他词汇。

5.根据权利要求1所述的方法,其特征在于,步骤3所述序列标注模型为BiSGRU‑Attention序列标注模型,包括:

词向量层,采用GolVe工具来学习词向量;

BiSGRU神经网络层,利用按照文本树结构的方式划分的双向切片门控循环单元BiSGRU,学习上下文信息,并获取字段之间的关联信息;

Attention层,计算句中各个词汇的概率权重,训练一个语义依存模型,用于获得词汇之间的语义关联矩阵;

CRF层,捕捉标签之间的相关性,利用标签的转移概率,得到标签序列的全局最优解。

6.根据权利要求5所述的方法,其特征在于,所述利用按照文本树结构的方式划分的BiSGRU具有三层网络结构,包括:第0层为句子级层,以句子为单位,对句子序列Sj进行等长划分,当无法进行等长划分的情况下进行非等长划分;

第1层为段落级层,以每个字段抽取的句子集合Pi为单位,进行非等长划分,用于学习字段之间的关联信息;

第2层为篇章级层,以字段集合重构的文本T为单位,进行非等长划分,用于学习文本的篇章级信息。

7.根据权利要求5或者6所述的方法,其特征在于,所述Attention层,计算句中各个词汇的概率权重包括:对于重组后的公告文本T,i为字段数,j为句子集合中的句子数,S为T的句子总数,S=i×j,n为句中的词汇数,L为T的词汇总数,L=n×S;令set为 的词向量组合,elementx为第x个词在set中对应的一项, 经过BiSGRU层的输出,得到第x个词在全文范围内的应分配的注意力概率权重αx=softmax(f(set,elementx,W)),其中f(·)用于计算elementx与set中各个词汇之间的相关性,利用曼哈顿距离,使用max(αx)‑αx来修正计算的结果,W为随模型一同训练的参数,softmax()为激活函数将输出转化为概率值;

然后利用αx对relation中的信息进行筛选融合,可获得当前词的全文篇章级信息chapterx=αx·relation;

使用开源语义依存分析模型来获取句子Sx中的关联实体矩阵M,得到关联实体的上下文信息dependxy=Mxy·relation,其中M是个二维矩阵,Mxy表示的是与第x词相关联的第y个词;

最后融合全文篇章级信息和实体对之间语义关联信息得到词汇最终的概率权重attx=tanh(chapterx,∑ydependxy),其中tanh()为激活函数。

8.一种基于BiSGRU和Attention的并购重组类公告信息抽取系统,其特征在于,包括:句子级抽取模块1,用于采用标题定位内容的方式提取公告文本的文本结构树,建立规则标签体系来制定各个字段抽取的规则模板;编写规则逻辑运算抽取引擎来解析规则模板,从所述文本结构树中抽取各个字段对应的句子集合以对公告文本进行重构;

字段级抽取模块2,用于制定标注标签,标注语料,使用语料训练序列标注模型;使用训练完成的序列标注模型,抽取出句子集合中的字段信息,录入到数据库;其中所述序列标注模型为BiSGRU‑Attention序列标注模型。

9.根据权利要求8所述的系统,其特征在于,步骤1所述规则标签体系中标签符号分为三类:普通规则符、特殊限制符、标识符;所述规则模板的制定由所述规则标签体系约束,且具有特定的规则逻辑运算组合;所述规则标签符号说明如表1:表1规则标签符号说明

10.根据权利要求8所述的系统,其特征在于,字段级抽取模块2所述序列标注模型为BiSGRU‑Attention序列标注模型,包括:词向量层,采用GolVe工具来学习词向量;

BiSGRU神经网络层,利用按照文本树结构的方式划分的双向切片门控循环单元BiSGRU,学习上下文信息,获取字段之间的关联信息;所述双向切片门控循环单元BiSGRU具有三层网络结构;

Attention层,计算句中各个词汇的概率权重,训练一个语义依存模型,用于获得词汇之间的语义关联矩阵;

CRF层,捕捉标签之间的相关性,利用标签的转移概率,得到标签序列的全局最优解。