利索能及
我要发布
收藏
专利号: 2021114258150
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2024-08-28
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:包括以下步骤,S1、对金融文本数据和金融舆情标签描述集合进行预处理,在预处理时,对原数据集D的所有金融文本进行划分,将每条金融文本按照中文分隔符分割成句表示,并按连贯概率进行合并,获得片段句;

S2、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;

S3、对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;

S4、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;

S5、构建标签关键句组合输入金融文本,进行细分舆情分类;具体方法为:对于标签t的关键文本 构建输入文本, 其中表示对于标签的第个关键句,表示第个关键句的第个字,表示未

训练字符,表示标签的训练字符,、为BERT预定义标识符;

将送入BERT的词向量编码层后得到

其中, , 为,,, 经过BERT词向量编码后的向量;

再用关键信息句抽取分类辅助模型关于片段句 的整体表征替换;后送入BERT模型后进行二分类,即可得到该金融文本是否属于舆情标签。

2.根据权利要求1所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S1中,按连贯概率进行合并的方式具体为,将当前句和下一句拼接送入预训练BERT模型,根据预训练BERT模型的输出是否是下一句的概率,得到语句连贯概率,若概率大于80%,则拼接当前句和下一句,作为新的片段句,若概率小于等于80%,则将当前句和下一句都当做不同的片段句;再在片段句的句尾添加预定义学习字符[s1],对各金融舆情类型标签描述句的句尾添加预定义学习字符[s2]。

3.根据权利要求2所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S2的具体方法为,S201、给定输入的一个金融文本个片段句集合,对每一个片段句,送入到循环神经网络中,其中表示片段句的长度,表示片段句第个位置的字;

S202、取最后一个时间步的输出表示 向量为片段句的整体表征,其中 R表示实数空间,表示循环神经网络的隐层维度;

S203、给定标签句描述集合,其中k表示标签的数量,表示第个标签的描述;

S204、对于每一个标签描述,送入到循环神经网络中,取最后一个时间步的输出表示为标签描述的整体表征,其中 R表示实数空间,表示循环神经网络的隐层维度。

4.根据权利要求3所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S3中,对金融文本片段句和标签描述集合进行相似度表征的具体方法为,对第个标签描述表征 通过分别计算与金融文本个片段句表征集合 的余弦相似度,得到标签与金融文本的相似度表征 其

中,R表示实数空间,q表示片段句的数量。

5.根据权利要求4所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S3中,进行分类训练得到关键信息句抽取分类辅助模型的方法为,将 送入全连接层,用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。

6.根据权利要求5所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S4的具体方法为:在得到关键信息句抽取分类辅助模型后,根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征 取前10%的片段句作为关于标签的新关键文本 其中 表示前10%的片段句中的第句,表示关于标签的新关键文本的关键句数量。

7.基于关键信息抽取的金融舆情细分方面检测设备,其特征在于:包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1‑6任意一种所述方法的步骤。