利索能及
我要发布
收藏
专利号: 2022100308248
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,包括以下步骤:

(1)将化工突发事件新闻文本数据D进行文本预处理,得到新闻文本数据D1;

(2)通过word2vec模型处理化工突发文本数据D1,得到文本特征向量R1,将词向量R1输入到WordAttention模型中,得到新的词依赖特征信息H1,再将词依赖特征信息H1输入到SeqAttention模型,得到子序列特征信息H2;

(3)通过对文本数据D1进行开源拼音包处理,得到对应的拼音序列,之后输入到MLP,经过最大池化层输出拼音向量H3,对预处理后的文本进行one‑hot编码,得到字符向量H4,与拼音向量H3进行矩阵化嵌入,得到2维矩阵向量R3;

(4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5,输入H5至Bert预训练模型中,得到对应的特征信息H6;

(5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合,输入到CNN模型中,得到最终的文本分类结果。

2.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(1)包括以下步骤:(11)定义化工突发事件新闻文本数据集为D,定义Text为单个文本数据,定义id,title,label分别为单个文本序列号,数据的标题,文本标签,并且满足关系Text={id,title,label},D={Text1,Text2,…,Texti,…,Textn},Texti为D中第i个文本信息数据,其中,n=len(D)为D中文本数量,变量i∈[1,n];

(12)定义处理后的化工突发事件文本数据集为D1,D1={Text1,Text2,…,Textj,…,Textm},Textj为D1中第j个文本信息数据,其中,m=len(D1)分别为D1中文本数量,变量j∈[1,m];

(13)读取数据集D,遍历整个数据集;

(14)如果title==null,执行(15),否则执行(16);

(15)删除对应行数据;

(16)根据停用词表去除一些无用的字符;

(17)保存预处理后的文本数据集D1。

3.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(2)包括以下步骤:(201)读取预处理后的文本数据集D1;

(202)定义词特征向量集R1;

(203)通过word2vec模型进行数据分词处理,由word2vec模型进行训练得到文本词特征向量

(204)保存词特征向量R1,并且满足 为数据向量集中第i个词特征向量,其中,变量i∈[1,a],a为分词后词向量的数量;

(205)定义基于注意力机制的词依赖特征向量H1;

(206)将词特征向量R1,输入到Attention机制中,得到基于注意力的词依赖特征向量其中 表示文本中的第j个词依赖特征向量,满足 变量j∈[1,b],b为词依赖特征向量的数量,其中的Attention机制的输入与调整方法为,使用softmax归一化,进行权重矩阵Wf调节,之后乘V, 其中,dk为一个Q和K向量的维度, 为尺度标量因子,分别代表query,key,value;

(207)定义循环变量k,用来学习第一级注意力机制的词特征向量H1,k初始值为1;

(208)定义基于注意力机制的子序列依赖特征向量H2;

(209)如果k≤b则执行(210),否则执行(212);

(210)将词依赖特征向量H1,输入到Attention机制中,得到基于注意力的子序列依赖特征向 量 其中 表示文 本中的 第t个 子序 列依赖特 征向量 ,满足变量t∈[1,c],c为子序列依赖特征向量的数量;

(211)k=k+1;

(212)输出并保存二级注意力机制的特征向量H2。

4.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(3)包括以下步骤:(31)定义拼音特征向量H3,定义one‑hot字符向量H4,定义融合嵌入矩阵R3;

(32)读入文本数据D1到开源的拼音包里,得到拼音表示,将其输入到MLP中,神经网络中由3个隐藏层,每个隐藏层64个节点数,然后由最大池化层得到拼音向量 满足为数据向量集中第i个字符对应的拼音向量,其中,变量i∈[1,d],d为拼音向量的数量;

(33)读取预处理数据D1,通过one‑hot编码字符向量,得到字符向量 满足为数据向量集中第j个字符特征向量,其中,变量j∈[1,e];

(34)融合拼音向量H3和字符向量H4,得到融合嵌入向量 主要使用具有可学习矩阵的全连接层诱导矩阵向量的嵌入,融合矩阵向量 其中 表示文本中的第t个字符对应的融合特征向量,变量t∈[1,s]。

5.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(4)包括以下步骤:(41)定义位置向量R4,定义融合位置向量的特征向量矩阵H5,定义Bert预训练后的特征向量H6;

(42)将融合矩阵向量R3与positional Embedding相加,得到整合特征向量矩阵其中,变量h∈[1,f];

(43)读取整合特征向量矩阵H5输入到Bert模型中训练,得到最终的特征信息向量H6,其中 为Bert训练后向量第p个特征向量,其中,变量p∈[1,g],对Bert模型的训练参数共享,得到对应的训练特征向量。

6.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(5)包括以下步骤:(51)读取上下文特征信息H2,读取语义信息H6;

(52)将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层,将先前层的特征映射与卷积核卷积,并加上相应修正偏差b1,作为权重的修正超参数;

(53)通过隐藏层激活函数的相关运算,输出特征映射,使用Leaky‑ReLU激活函数,作为隐藏层的激活函数,如下公式,Leaky‑ReLU为所有负值分配一个非零的斜率:其中,ai是固定的超参数,i表示对应第i个特征信息的ai;

(54)定义预测标签集L,使用最大池化层进行处理,之后进行全连接操作,进行文本分类L={label},得到最终的文本分类结果S。