1.一种融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,包括如下步骤:步骤1、通过预训练的BERT模型从输入文本中提取深层语义特征,进行基于BERT的敏感文本分类,理解敏感内容的细微语言模式,计算BERT模型的预测概率;
使用所有标签平均的标准二进制交叉熵损失,对所述BERT模型进行训练:;
其中, 是标签的数量, 表示对于给定的输入标签 被激活的概率, 是标签的真实值, 是损失函数的计算结果;
通过基于标签的损失权重解决标签不平衡,公式如下:;
其中, 是特定于标签的加权系数,得到 是加权后的损失函数结果;
步骤2、构建多标签学习的朴素贝叶斯集成模型,基于词法统计规律,计算得到朴素贝叶斯集成模型的预测概率;
所述朴素贝叶斯集成模型是由 个独立的多项式朴素贝叶斯分类器组成的集合,每个分类器对应于 个标签中的一个,具体处理如下:步骤2.1、给定输入文本序列 ,提取其TF‑IDF表示:;
其中, 为词汇量, 为单词 在 的TF‑IDF得分;
步骤2.2、对于每个标签 ,使用单独的MNB分类器通过贝叶斯规则估计后验概率:;
其中, 表示在文本 的条件下属于标签 的后验概率, 表示在标签的条件下文本 出现的似然概率, 表示标签 的先验概率;
步骤2.3、计算对数后验,以保持数值稳定性:;
其中, 表示标签 的条件下 出现的概率;
步骤2.4、使用 平滑训练数据,估计 :;
其中, 、 表示单词 和 在以 标记的样本中出现的次数, 是平滑因子;
步骤2.5、计算每一类的原始对数概率,通过Sigmoid函数进行归一化并转换为伪概率:;
其中, 为通过朴素贝叶斯分类器对输入文本 进行处理后,得到的文本属于第个标签的预测概率;
步骤2.6、得到最终的朴素贝叶斯集成预测向量 :;
所述朴素贝叶斯集成预测向量 在反向传播期间不会更新,用于充当外部信号,通过一致性损失使BERT模型正则化;
步骤3、在训练阶段,引入一致性正则化损失,以得到的朴素贝叶斯集成预测向量为外部信号,强制要求BERT模型和朴素贝叶斯集成模型的预测概率对每个标签进行对齐;
步骤4、在推理阶段,将BERT模型和朴素贝叶斯集成模型联合部署,以概率的方式进行融合预测,得到多标签敏感文本检测结果。
2.根据权利要求1所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,步骤1中,计算BERT模型的预测概率,方法如下:步骤1.1、对于给定的输入文本序列 ,最大长度为 ,通过函数将每个标记 映射为上下文隐藏向量,生成隐藏状态 :;
其中,是BERT的隐维;
步骤1.2、使用与特殊分类令牌 对应的隐藏状态作为整个序列的定长表示,提取令牌对应的隐藏向量:;
其中, 是提取令牌对应的隐藏向量, 是BERT模型对输入文本进行编码后特殊分类令牌 对应的隐藏状态向量;
步骤1.3、将汇集的向量通过一个线性分类层投影到一个 维的输出空间中:;
其中, 是线性分类层的权重矩阵,用于将BERT模型提取的隐藏状态 投影到标签空间,是线性分类层的偏置向量,用于调整线性变换结果;
步骤1.4、执行多标签分类,按元素应用Sigmoid激活函数 :;
其中, 是通过线性分类层计算得到的结果向量 中的各个元素, 是BERT模型的概率输出向量。
3.根据权利要求1所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,步骤2.1中所述TF‑IDF得分,计算方式为:;
其中, 表示词频,是单词 在文本 中出现的次数除以文本 的总单词数; 表示逆文档频率,是语料库中文档总数除以包含单词 的文档数。
4.根据权利要求1所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,步骤3中,所述一致性正则化损失通过均方误差定义,表示为:;
通过向量形式表示为:
;
其中, 为BERT模型的概率输出向量, 为朴素贝叶斯集成模型的相应输出向量, 为一致性损失。
5.根据权利要求4所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,对于BERT模型和朴素贝叶斯集成模型不一致度超过预设阈值的样本,一致性正则化损失使用门控函数计算:;
其中, 为门控函数, 为一致性损失, 是门控函数作用于原本一致性损失后的结果。
6.根据权利要求5所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,总训练目标结合BERT的监督分类损失和一致性损失计算,表示为:;
其中, 是非负的超参数,用于控制一致性正则化的相对重要性。
7.根据权利要求6所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,步骤4所述推理过程中,预测向量通过凸组合计算:;
其中, 和 分别是来自BERT模型和朴素贝叶斯集成模型的预测概率向量,是融合权超参数,用于平衡每个模型的贡献。
8.根据权利要求7所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法,其特征在于,对每个标签维度应用固定阈值 ,将软概率转换为用于多标签分类的二元标签决策:;
当标签分布高度不平衡时,在验证集上调整标签特定阈值 :;
其中, 是凸组合计算得到的软概率, 是二元标签决策。