买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

￥20200

专利号： 2022100308248

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-04-09

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，其特征在于，包括以下步骤：

(1)将化工突发事件新闻文本数据D进行文本预处理，得到新闻文本数据D1；

(2)通过word2vec模型处理化工突发文本数据D1，得到文本特征向量R1，将词向量R1输入到WordAttention模型中，得到新的词依赖特征信息H1，再将词依赖特征信息H1输入到SeqAttention模型，得到子序列特征信息H2；

(3)通过对文本数据D1进行开源拼音包处理，得到对应的拼音序列，之后输入到MLP，经过最大池化层输出拼音向量H3，对预处理后的文本进行one‑hot编码，得到字符向量H4，与拼音向量H3进行矩阵化嵌入，得到2维矩阵向量R3；

(4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5，输入H5至Bert预训练模型中，得到对应的特征信息H6；

(5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合，输入到CNN模型中，得到最终的文本分类结果。

2.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，其特征在于，所述步骤(1)包括以下步骤：(11)定义化工突发事件新闻文本数据集为D，定义Text为单个文本数据，定义id，title，label分别为单个文本序列号，数据的标题，文本标签，并且满足关系Text＝{id,title,label}，D＝{Text1,Text2,…,Texti,…,Textn}，Texti为D中第i个文本信息数据，其中，n＝len(D)为D中文本数量，变量i∈[1,n]；

(12)定义处理后的化工突发事件文本数据集为D1，D1＝{Text1,Text2,…,Textj,…,Textm}，Textj为D1中第j个文本信息数据，其中，m＝len(D1)分别为D1中文本数量，变量j∈[1,m]；

(13)读取数据集D，遍历整个数据集；

(14)如果title＝＝null，执行(15)，否则执行(16)；

(15)删除对应行数据；

(16)根据停用词表去除一些无用的字符；

(17)保存预处理后的文本数据集D1。

3.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，其特征在于，所述步骤(2)包括以下步骤：(201)读取预处理后的文本数据集D1；

(202)定义词特征向量集R1；

(203)通过word2vec模型进行数据分词处理，由word2vec模型进行训练得到文本词特征向量

(204)保存词特征向量R1，并且满足为数据向量集中第i个词特征向量，其中，变量i∈[1,a]，a为分词后词向量的数量；

(205)定义基于注意力机制的词依赖特征向量H1；

(206)将词特征向量R1，输入到Attention机制中，得到基于注意力的词依赖特征向量其中表示文本中的第j个词依赖特征向量，满足变量j∈[1,b]，b为词依赖特征向量的数量，其中的Attention机制的输入与调整方法为，使用softmax归一化，进行权重矩阵Wf调节，之后乘V，其中，dk为一个Q和K向量的维度，为尺度标量因子，分别代表query，key，value；

(207)定义循环变量k，用来学习第一级注意力机制的词特征向量H1，k初始值为1；

(208)定义基于注意力机制的子序列依赖特征向量H2；

(209)如果k≤b则执行(210)，否则执行(212)；

(210)将词依赖特征向量H1，输入到Attention机制中，得到基于注意力的子序列依赖特征向量其中表示文本中的第t个子序列依赖特征向量，满足变量t∈[1,c]，c为子序列依赖特征向量的数量；

(211)k＝k+1；

(212)输出并保存二级注意力机制的特征向量H2。

4.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，其特征在于，所述步骤(3)包括以下步骤：(31)定义拼音特征向量H3，定义one‑hot字符向量H4，定义融合嵌入矩阵R3；

(32)读入文本数据D1到开源的拼音包里，得到拼音表示，将其输入到MLP中，神经网络中由3个隐藏层，每个隐藏层64个节点数，然后由最大池化层得到拼音向量满足为数据向量集中第i个字符对应的拼音向量，其中，变量i∈[1,d]，d为拼音向量的数量；

(33)读取预处理数据D1，通过one‑hot编码字符向量，得到字符向量满足为数据向量集中第j个字符特征向量，其中，变量j∈[1,e]；

(34)融合拼音向量H3和字符向量H4，得到融合嵌入向量主要使用具有可学习矩阵的全连接层诱导矩阵向量的嵌入，融合矩阵向量其中表示文本中的第t个字符对应的融合特征向量，变量t∈[1,s]。

5.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，其特征在于，所述步骤(4)包括以下步骤：(41)定义位置向量R4，定义融合位置向量的特征向量矩阵H5，定义Bert预训练后的特征向量H6；

(42)将融合矩阵向量R3与positional Embedding相加，得到整合特征向量矩阵其中，变量h∈[1,f]；

(43)读取整合特征向量矩阵H5输入到Bert模型中训练，得到最终的特征信息向量H6，其中为Bert训练后向量第p个特征向量，其中，变量p∈[1,g]，对Bert模型的训练参数共享，得到对应的训练特征向量。

6.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法，其特征在于，所述步骤(5)包括以下步骤：(51)读取上下文特征信息H2，读取语义信息H6；

(52)将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层，将先前层的特征映射与卷积核卷积，并加上相应修正偏差b1，作为权重的修正超参数；

(53)通过隐藏层激活函数的相关运算，输出特征映射，使用Leaky‑ReLU激活函数，作为隐藏层的激活函数，如下公式，Leaky‑ReLU为所有负值分配一个非零的斜率：其中，ai是固定的超参数，i表示对应第i个特征信息的ai；

(54)定义预测标签集L，使用最大池化层进行处理，之后进行全连接操作，进行文本分类L＝{label}，得到最终的文本分类结果S。

推荐专利

基于知识增强和注意力机制的新闻推荐方法及系统

发明专利

￥25200

基于无池化卷积嵌入和注意分布神经网络的新闻分类方法

发明专利

￥20400

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们