利索能及
我要发布
收藏
专利号: 2021114037711
申请人: 辽宁大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,包括以下步骤:

1)选取金融事件类型,并根据不同的金融事件类型定义事件要素;

2)从互联网上公开数据源获取各类金融事件的篇章级长文本类数据,并对文本类数据进行清洗,将清洗后数据格式转换成JSON格式,保存到MongoDB数据库;

3)根据不同的金融事件类型进行触发词设定,通过设定的触发词筛选出包含目标金融事件的文本;

4)对筛选后的文本进行数据标注,形成可以训练事件抽取模型的数据集;

运用构造的数据集训练事件抽取模型,得到的事件抽取结果并检验数据集的效果;

所述的步骤4)对筛选后的文本进行数据标注,形成可以训练事件抽取模型的数据集的过程如下:

4.1)由于数据标注的需要,构建可以对金融文本类数据进行标注的数据标注平台;

4.2)根据不同金融事件类型,在数据标注平台中构建不同的模块,每一个模块中包含对应金融事件类型所定义的事件要素;

4.3)将触发后的类型相同的金融文本数据导入到相对应的金融事件类型模块中;

4.4)对导入的文本数据进行标注,标注出该模块下定义的事件要素的具体内容;

4.5)将标注后的数据结果导出,形成训练事件抽取模型的数据集。

2.根据权利要求1所述的面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,所述步骤2)的具体方法如下:

2.1)使用Python的Scrapy框架对金融类网站上包含金融事件的文本数据进行爬取;

2.2)使用字符串匹配删除的方法对文本数据进行清洗;

将清洗后的文本保存为JSON格式并存入MongoDB数据库。

3.根据权利要求1所述的面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,所述步骤3)的具体方法如下:

3.1)将MongoDB数据库中的原始数据文本进行首次触发识别:根据事件关键词对原始的篇章级长文本数据进行一级触发筛选,此时的文本仅仅包含事件关键词,并不能确保文本数据包含金融事件;

3.2)为每一类事件匹配贴合事件类型的触发词词典,并根据触发词词典进行二级触发;

3.3)根据对文本包含事件准确率及文本数量需求的不同,对二级触发后的文本再次触发,形成多级触发。

4.根据权利要求1所述的面向金融领域事件抽取的篇章级长文本数据预处理方法,其特征在于,所述的触发词词典包括正向触发词词典和反向触发词词典;

其中,正向触发词为用于确定金融事件的触发词,通过删除不包含正向触发词的文本,来达到筛选文本的目的;

反向触发词为金融事件明确不包含的触发词,通过删除包含反向触发词的文本,筛选出符合要求的文本数据。

5.一种采用权利要求1所述方法的面向金融领域事件抽取的篇章级长文本数据预处理系统,其特征在于,包括:事件类型与事件要素模块,用于选取和确定事件类型,并根据每种事件类型定义各自的事件要素;

数据收集模块,用于对金融类网站上包含金融事件的文本数据进行爬取,并对文本类数据进行数据清洗及数据格式转换;

数据触发模块,用于触发词筛选及设定,将正向触发与反向触发进行融合,运用多级多次触发方法,提高金融事件的触发精确度;

数据标注模块,用于筛选后的文本数据导入,根据事件元素的设定对数据进行标注,形成可以训练事件抽取模型的数据集;

事件抽取模块,用于事件抽取模型的训练及预测,完成篇章级长文本数据预处理。

6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的面向金融领域事件抽取的篇章级长文本数据预处理方法。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的面向金融领域事件抽取的篇章级长文本数据预处理方法。