1.一种基于BERT‑base网络的带噪半监督文本分类方法,其特征在于包括如下步骤:S1、数据初始化阶段:将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one‑hot标签;
S2、数据增强阶段:采用FGM方法添加扰动并作插值处理,在BERT中特定Transformer隐藏层而非词向量编码层做扰动和插值处理;
S3、损失函数的构造阶段;损失函数loss=ls+lsce,第一项为对带标签样本的模型输出和其真实标签 求交叉熵,第二项为插值标签 与插值模型输出 的对称交叉熵;
S4、模型参数更新阶段:
S5、模型应用阶段:使用训练好的模型,将测试文本输入模型,模型输出向量中最大概率处对应的类别即为预测所属的分类;
步骤S2具体实现如下:
S21、BERT‑base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本 在BERT‑base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中即向量 的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数;设无标签样本 的第3层隐藏层的输出为 则扰动后结果为S22、在BERT‑base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作;设 和 分别为样本有标签样本 和无标签样本 在分类模型隐藏层中第k层的输出,k∈{7,9,12};对应的真实标签和预测标签分别为 和
2.根据权利要求1所述的一种基于BERT‑base网络的带噪半监督文本分类方法,其特征在于步骤S1具体实现如下:S11、将无标签样本 通过机器翻译工具翻译成其他语言之后再翻译回原语言,以此方式由样本 得到样本 其中j∈{1,2,…,Nu},Nu为一个批次样本中无标签样本数量;
S12、将样本 输入分类模型得到输出向量 若 即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予 一个one‑hot预测标签标签 同时对应样本 和样本 θ表示模型参数;
S13、若样本 被赋予了one‑hot标签,则也将无标签样本 输入模型得到输出向量将带标签样本 输入模型得到输出向量
3.根据权利要求2所述的一种基于BERT‑base网络的带噪半监督文本分类方法,其特征在于所述的插值操作步骤如下:S221、利用Beta分布产生一个0~1之间的随机数λ;
S222、取λ1=max{λ,1‑λ},λ2=min{λ,1‑λ},即λ1>λ2且λ1+λ2=1;
S223、计算
S224、将 输入第k+1层隐藏层,并经后面若干隐藏层的计算得到插值模型输出;将S2步骤整个过程记为f'(·),则插值模型输出记为 two‑hot形式的插值标签记为
4.根据权利要求3所述的一种基于BERT‑base网络的带噪半监督文本分类方法,其特征在于步骤S3具体实现如下:S31、lsce=μ1lce+μ2lrce;对称交叉熵包括两部分,lce为交叉熵,lrce反交叉熵;μ1和μ2是二者的超参数权重;具体公式为:交叉熵:
反交叉熵:
其中i∈{1,2,…,Nl},j∈{1,2,…,Nu},因为 为two‑hot标签向量,标签向量中势必存在0元素,故反交叉熵的计算中存在log0,定义超参数A=log0,A<0,Ι{·}表示大括号内条件成立则返回1否则返回0;
S32、ls为针对带标签样本的交叉熵;
S33、计算最终损失函数loss:loss=ls+lsce=ls+μ1lce+μ2lrce。
5.根据权利要求4所述的一种基于BERT‑base网络的带噪半监督文本分类方法,其特征在于步骤S4具体实现如下:S41更新模型参数θ,即 η为学习率;
S42、在下一批次样本中重复步骤S1‑步骤S4,每经过一批次样本的训练后验证模型预测正确率,若更新了当前最高正确率则保存该模型参数;若模型经过10批次训练后预测正确率仍未提高,则结束训练过程。
6.根据权利要求4所述的一种基于BERT‑base网络的带噪半监督文本分类方法,其特征在于构造的two‑hot模式反交叉熵的有效性实现如下:lrce=‑pilogλ1‑pjlogλ2‑(1‑pi‑pj)A其中,zi和zj分别表示正确标签和预测标签所属类别处模型softmax前的输出,zc表示错误类别处模型softmax前的输出;pi和pj分别表示正确标签和预测标签所属类别处模型的最终输出,pc表示错误类别处模型的最终输出;
因为0<λ1,λ2<1,A<0,two‑hot模式下pi和pj基本在0~0.5范围内,故:即lrce的下降会使得正确类别处的输出zi和zj上升,错误类别处的输出zc下降,符合损失函数基本目的,lrce可加速loss的梯度下降;
和 的大小主要取决于其中的一次项,即 和 中的pi和pj,又因为0<λ2<λ1<1,‑(A‑logλ1)>‑(A‑logλ2)>0,pipj>0, 故大部分情况下 成立,即反交叉熵总体更偏向于真实标签;
误判情况的偶发性导致模型对于错误标签的预测置信度不会很高,所以若pj对应的预测标签属于误判,则较小的一次项可对 起到限制的作用。