利索能及
我要发布
收藏
专利号: 2020108989065
申请人: 三峡大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于BERT与改进LSTM的文本分类方法,其特征在于,包括以下步骤:步骤1:对输入的文本数据进行预处理;

步骤2:将预处理后的文本数据输入BERT模型进行处理,得到词向量序列;

所述步骤2具体包括:

1)利用训练好的BERT模型对预处理后的文本数据集T'的文本进行分词,得到词向量集T”={t1”,t2”,...,tn”},文本数据集的文本被转化成固定长度的词向量t”1={w1,w2,...,wL};

2)将词向量集T”输入BERT中的Token嵌入层、Segment嵌入层和Position嵌入层,分别得到向量编码V1、句子编码V2以及位置编码V3;

3)将V1、V2、V3相加,输入到BERT中的双向Transformer中,得到词向量序列S={s1,s2,...,sn};

步骤3:利用改进的LSTM网络对向量序列进行深度编码,得到特征向量;

所述改进的LSTM网络的LSTM单元包括贡献门、遗忘门、输入门和输出门,贡献门根据上一时刻的细胞状态ct‑1、隐藏状态ht‑1以及当前时刻的输入信息来产生与输入向量xt具有相同维度的注意力向量at,将注意力向量at与xt结合,得到优化的输入向量xt′,作为遗忘门、输入门和输出门的输入;

at=σa(Waxt+Uaht‑1+Mact‑1+ba)遗忘门:

ft=σg(Wfxt'+bf)

输入门:

it=σg(Wixt'+bi)

输出门:

ot=σg(Woxt'+bo)

细胞状态:

隐藏状态:

其中ht为当前时刻t的隐藏状态,ct为当前时刻t的细胞状态,Wa、Ua、Ma、Wf、Wi、Wo、Wc分别为权重矩阵,ba、bf、bi、bo、bc分别为偏差项;σa、σg、σc、σh分别为激活函数;表示逐元素点乘运算;

步骤4:利用全连接层对特征向量降维;

步骤5:使用分类器对降维的特征向量进行分类。

2.根据权利要求1所述的基于BERT与改进LSTM的文本分类方法,其特征在于,步骤1中,文本数据的预处理包括标点符号过滤、缩写补齐、删除空格和非法字符过滤。

3.根据权利要求1或2所述的基于BERT与改进LSTM的文本分类方法,其特征在于,步骤5使用softmax层对步骤4降维的特征向量进行概率分类,输出概率预测向量P={p1,p2,...,pC},pi,i=1,2...,C表示文本属于具体分类的概率,C为分类的总数量;将概率值最大的pi对应的分类确定为该文本的类别。