利索能及
我要发布
收藏
专利号: 2019106750038
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于BERT和特征融合的文本自动分类方法,其特征在于,包括以下步骤:(1)输入一个原始文本数据集T,对文本数据进行预处理,得到文本数据集T′;其中,T={t1,t2,…,ta,…,tlen(T)},len(T)为T中文本内容的数量,ta为T中第a个文本信息,T′={t1′,t2′,…,tb′,…,tlen(T')′},len(T′)为T′中文本内容的数量,tb′为T′中第b个文本信息;

(2)对文本数据集T′进行向量化,利用预训练好的BERT模型将T′中的每个文本信息进行tokenization分词,将每个字转化成固定长度的向量,得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中,得到字向量序列S,其中S={s1,s2,…,se,…,slen(T')},其中,se是第e个文本的输出向量表示;

(3)对字向量序列S进行两次深度编码,以se为例,将步骤(2)得到的se分别输入到CNN和

1 2

BiLSTM模型中,得到两个特征向量F和F;

1 2 3 3

(4)对F 和F两个特征向量进行特征融合得到新的特征向量F ,F再经过全连接层来实

4 4 4 4

现线性降维,得到F={F1 ,F2 ,…,F10};

4

(5)使用softmax层进行概率运算,将步骤(4)得到的F向量作为输入,输入到softmax层中,使得输入向量中的每个实数被映射为0到1之间的实数,并且输出向量中所有实数之和为1,这些实数表示相应种类的概率大小,得到的输出为概率预测向量P={p1,p2,…,pf,…,p10},其中,pf表示该文本为第f类的概率;

(6)模型参数优化,根据步骤(2)至步骤(5)对模型进行编译,采用的损失函数为交叉熵,优化器为adam,指标为准确度;编译完成后,使用带标记的数据对模型进行训练,训练前将所有数据划分训练集、验证集和测试集,训练时保存在验证集上准确度最高的模型;

(7)文本分类预测,利用步骤(6)得到的模型,对待分类的文本进行预测,模型输出一个概率预测向量P={p1,p2,…,pf,…,p10},搜索向量P中的最大数值,并将最大值对应的分类结果作为最终输出,即文本分类的结果Yout;

步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序1

列进行运算,然后将得到的多维特征用Flatten层转化成一维特征,得到特征向量F ,其中,k=98304为CNN第二个池化层输出的神经元数;具体实现过程如下:

1)卷积神经网络CNN的输入为si,首先经过第一个卷积层,用128个100×5的卷积核对输入si进行卷积运算,得到特征f1;

2)将f1输入到激活函数Relu()中,得到输出为f2计算公式为:f2=max(0,f1)

3)将f2输入到最大值池化层,用1×101的池化核进行步长为1的池化,得到输出为f3;

4)重复1)至3)将其中部分参数替换:卷积层改用256个1×1的卷积核进行卷积,最大值池化层改用1×1的池化核进行步长为2的池化,最终得到输出为f4;

1

5)使用Flatten层将多维特征f4压缩为一个一维向量,得到CNN的最终输出为F;

步骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元,对输入的字向量序列进行2

一个序列上的双向运算,得到的输出经过非线性激活层的运算后,作为另一个特征向量F ,

2 2 2 2

F={F1 ,F2 ,…,Fm},其中,m=768为BiLSTM隐藏层神经元数。

2.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(1)所述数据预处理主要包括去重、去乱码、去空。

3.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,所述步骤(2)包括以下步骤:

(21)定义T′={t1′,t2′,…,tb′,…,tlen(T')′},其中,tb′表示T'文本数据集中的第b个文本,将待分类文本内容tb′统一为固定长度Lmax;

(22)定义i为循环变量,且赋i初值为1,开始循环;

(23)定义len(T')为T′数据集中的文本信息数量,如果i≤len(T′)则跳转到下一步;否则跳转到(28);

(24)定义len(ti′)为文本中第i个文本信息的长度,如果len(ti′)+2≤Lmax则跳转到下一步;否则对文本信息截取前Lmax个单位,且跳转到(25);

(25)通过建立一个双向预训练语言模型的BERT模型将T'中的每个文本ti′进行tokenization处理并转化成token的形式,得到token序列T″={t1″,t2″,…, tc″,…,tlen(T')″},其中,tc″表示第c个文本,tc″={W1,W2,…,Wd,…,WLmax},其中,变量c∈[1,len(T′)],变量d∈[1,len(Lmax)],Wd代表第d个token表示;

(26)将T″中每个文本tc″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层,分别得到向量编码V1、句子编码V2及位置编码V3;

(27)将步骤(22)获得的三种不同的输出V1、V2和V3相加,输入到BERT的双向Transformer中,最终的输出来自于最后一层的隐藏层神经元,得到一个字向量序列si={V(W1),V(W2),…,V(We),…,V(WLmax)}作为BERT模型的输出,其中,V(We)代表第e个token的向量表示;

(28)跳出循环,并输出由len(T')个si组成的字向量序列S={s1,s2,…,se,…,slen(T')}。

4.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(6)所述的训练集、验证集和测试集按6:2:2划分。