买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于BERT和特征融合的文本自动分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于BERT和特征融合的文本自动分类方法

￥16800

专利号： 2019106750038

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于BERT和特征融合的文本自动分类方法，其特征在于，包括以下步骤：(1)输入一个原始文本数据集T，对文本数据进行预处理，得到文本数据集T′；其中，T＝{t1,t2,…,ta,…,tlen(T)}，len(T)为T中文本内容的数量，ta为T中第a个文本信息，T′＝{t1′,t2′,…,tb′,…,tlen(T')′}，len(T′)为T′中文本内容的数量，tb′为T′中第b个文本信息；

(2)对文本数据集T′进行向量化，利用预训练好的BERT模型将T′中的每个文本信息进行tokenization分词，将每个字转化成固定长度的向量，得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中，得到字向量序列S，其中S＝{s1,s2,…,se,…,slen(T')}，其中，se是第e个文本的输出向量表示；

(3)对字向量序列S进行两次深度编码，以se为例，将步骤(2)得到的se分别输入到CNN和

1 2

BiLSTM模型中，得到两个特征向量F和F；

1 2 3 3

(4)对F 和F两个特征向量进行特征融合得到新的特征向量F ，F再经过全连接层来实

4 4 4 4

现线性降维，得到F＝{F1 ,F2 ,…,F10}；

(5)使用softmax层进行概率运算，将步骤(4)得到的F向量作为输入，输入到softmax层中，使得输入向量中的每个实数被映射为0到1之间的实数，并且输出向量中所有实数之和为1，这些实数表示相应种类的概率大小，得到的输出为概率预测向量P＝{p1,p2,…,pf,…,p10},其中，pf表示该文本为第f类的概率；

(6)模型参数优化，根据步骤(2)至步骤(5)对模型进行编译，采用的损失函数为交叉熵，优化器为adam，指标为准确度；编译完成后，使用带标记的数据对模型进行训练，训练前将所有数据划分训练集、验证集和测试集，训练时保存在验证集上准确度最高的模型；

(7)文本分类预测，利用步骤(6)得到的模型，对待分类的文本进行预测，模型输出一个概率预测向量P＝{p1,p2,…,pf,…,p10}，搜索向量P中的最大数值，并将最大值对应的分类结果作为最终输出，即文本分类的结果Yout；

步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序1

列进行运算，然后将得到的多维特征用Flatten层转化成一维特征，得到特征向量F ，其中，k＝98304为CNN第二个池化层输出的神经元数；具体实现过程如下：

1)卷积神经网络CNN的输入为si，首先经过第一个卷积层，用128个100×5的卷积核对输入si进行卷积运算，得到特征f1；

2)将f1输入到激活函数Relu()中，得到输出为f2计算公式为：f2＝max(0,f1)

3)将f2输入到最大值池化层，用1×101的池化核进行步长为1的池化，得到输出为f3；

4)重复1)至3)将其中部分参数替换：卷积层改用256个1×1的卷积核进行卷积，最大值池化层改用1×1的池化核进行步长为2的池化，最终得到输出为f4；

5)使用Flatten层将多维特征f4压缩为一个一维向量，得到CNN的最终输出为F；

步骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元，对输入的字向量序列进行2

一个序列上的双向运算，得到的输出经过非线性激活层的运算后，作为另一个特征向量F ，

2 2 2 2

F＝{F1 ,F2 ,…,Fm}，其中，m＝768为BiLSTM隐藏层神经元数。

2.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法，其特征在于，步骤(1)所述数据预处理主要包括去重、去乱码、去空。

3.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法，其特征在于，所述步骤(2)包括以下步骤：

(21)定义T′＝{t1′,t2′,…,tb′,…,tlen(T')′}，其中，tb′表示T'文本数据集中的第b个文本，将待分类文本内容tb′统一为固定长度Lmax；

(22)定义i为循环变量，且赋i初值为1，开始循环；

(23)定义len(T')为T′数据集中的文本信息数量，如果i≤len(T′)则跳转到下一步；否则跳转到(28)；

(24)定义len(ti′)为文本中第i个文本信息的长度，如果len(ti′)+2≤Lmax则跳转到下一步；否则对文本信息截取前Lmax个单位，且跳转到(25)；

(25)通过建立一个双向预训练语言模型的BERT模型将T'中的每个文本ti′进行tokenization处理并转化成token的形式，得到token序列T″＝{t1″,t2″,…, tc″,…,tlen(T')″}，其中，tc″表示第c个文本，tc″＝{W1,W2,…,Wd,…,WLmax}，其中，变量c∈[1,len(T′)]，变量d∈[1,len(Lmax)],Wd代表第d个token表示；

(26)将T″中每个文本tc″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层，分别得到向量编码V1、句子编码V2及位置编码V3；

(27)将步骤(22)获得的三种不同的输出V1、V2和V3相加，输入到BERT的双向Transformer中，最终的输出来自于最后一层的隐藏层神经元，得到一个字向量序列si＝{V(W1),V(W2),…,V(We),…,V(WLmax)}作为BERT模型的输出，其中，V(We)代表第e个token的向量表示；

(28)跳出循环，并输出由len(T')个si组成的字向量序列S＝{s1,s2,…,se,…,slen(T')}。

4.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法，其特征在于，步骤(6)所述的训练集、验证集和测试集按6：2：2划分。