利索能及
我要发布
收藏
专利号: 2019106750038
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于BERT和特征融合的文本自动分类方法,其特征在于,包括以下步骤:(1)输入一个原始文本数据集T,对文本数据进行预处理,得到文本数据集T′;其中,T={t1,t2,...,ta,...,tlen(T)},len(T)为T中文本内容的数量,ta为T中第a个文本信息,T′={t1′,t2′,...,tb′,...,tlen(T′)′},len(T′)为T′中文本内容的数量,tb′为T′中第b个文本信息;

(2)对文本数据集T′进行向量化,利用预训练好的BERT模型将T′中的每个文本信息进行tokenization分词,将每个字转化成固定长度的向量,得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中,得到字向量序列S,其中S={s1,s2,...,se,...,slen(T′)},其中,se是第e个文本的输出向量表示;

(3)对字向量序列S进行两次深度编码,以se为例,将步骤(2)得到的se分别输入到CNN和BiLSTM模型中,得到两个特征向量F1和F2;

1 2 3 3

(4)对F 和F两个特征向量进行特征融合得到新的特征向量F ,F再经过全连接层来实现线性降维,得到F4={F14,F24,...,F104};

(5)使用softmax层进行概率运算,将步骤(4)得到的F4向量作为输入,输入到softmax层中,使得输入向量中的每个实数被映射为0到1之间的实数,并且输出向量中所有实数之和为1,这些实数表示相应种类的概率大小,得到的输出为概率预测向量P={p1,p2,...,pf,...,p10},其中,pf表示该文本为第f类的概率;

(6)模型参数优化,根据步骤(2)至步骤(5)对模型进行编译,采用的损失函数为交叉熵,优化器为adam,指标为准确度;编译完成后,使用带标记的数据对模型进行训练,训练前将所有数据划分训练集、验证集和测试集,训练时保存在验证集上准确度最高的模型;

(7)文本分类预测,利用步骤(6)得到的模型,对待分类的文本进行预测,模型输出一个概率预测向量P={p1,p2,...,pf,...,p10},搜索向量P中的最大数值,并将最大值对应的分类结果作为最终输出,即文本分类的结果Yout。

2.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(1)所述数据预处理主要包括去重、去乱码、去空。

3.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,所述步骤(2)包括以下步骤:(21)定义T′={t1′,t2′,…,tb′,…,tlen(T′)′},其中,tb′表示T′文本数据集中的第b个文本,将待分类文本内容tb′统一为固定长度Lmax;

(22)定义i为循环变量,且赋i初值为1,开始循环;

(23)定义len(T′)为T′数据集中的文本信息数量,如果i≤len(T′)则跳转到下一步;否则跳转到(28);

(24)定义len(ti′)为文本中第i个文本信息的长度,如果len(ti′)+2≤Lmax则跳转到下一步;否则对文本信息截取前Lmax个单位,且跳转到(25);

(25)通过建立一个双向预训练语言模型的BERT模型将T′中的每个文本ti′进行tokenization处理并转化成token的形式,得到token序列T″={t1″,t2″,…,tc″,…,tlen(T′)″},其中,tc″表示第c个文本,tc″={W1,W2,...,Wd,...,WLmax},其中,变量c∈[1,len(T′)],变量d∈[1,len(Lmax)],Wd代表第d个token表示;

(26)将T″中每个文本tc″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层,分别得到向量编码V1、句子编码V2及位置编码V3;

(27)将步骤(22)获得的三种不同的输出V1、V2和V3相加,输入到BERT的双向Transformer中,最终的输出来自于最后一层的隐藏层神经元,得到一个字向量序列si={V(W1),V(W2),...,V(We),...,V(WLmax)}作为BERT模型的输出,其中,V(We)代表第e个token的向量表示;

(28)跳出循环,并输出由len(T′)个si组成的字向量序列S={s1,s2,...,se,...,slen(T′)}。

4.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算,然后将得到的多维特征用Flatten层转化成一维特征,得到特征向量F1,F1={F11,

1 l

F2,...,Fk},其中,k=-98304为CNN第二个池化层输出的神经元数。

5.根据权利要求1所述的基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元,对输入的字向量序列进行一个序列上的双向运算,得到的输出经过非线性激活层的运算后,作为另一个特征向量F2,F2={F12,

2 2

F2,...,Fm},其中,m=768为BiLSTM隐藏层神经元数。

6.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(6)所述的训练集、验证集和测试集按6∶2∶2划分。