买专利、卖专利、专利购买、专利交易、专利出售、高企申报-融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法

面议

专利号： 2025116062307

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，包括如下步骤：步骤1、通过预训练的BERT模型从输入文本中提取深层语义特征，进行基于BERT的敏感文本分类，理解敏感内容的细微语言模式，计算BERT模型的预测概率；

使用所有标签平均的标准二进制交叉熵损失，对所述BERT模型进行训练：；

其中，是标签的数量，表示对于给定的输入标签被激活的概率，是标签的真实值，是损失函数的计算结果；

通过基于标签的损失权重解决标签不平衡，公式如下：；

其中，是特定于标签的加权系数，得到是加权后的损失函数结果；

步骤2、构建多标签学习的朴素贝叶斯集成模型，基于词法统计规律，计算得到朴素贝叶斯集成模型的预测概率；

所述朴素贝叶斯集成模型是由个独立的多项式朴素贝叶斯分类器组成的集合，每个分类器对应于个标签中的一个，具体处理如下：步骤2.1、给定输入文本序列，提取其TF‑IDF表示：；

其中，为词汇量，为单词在的TF‑IDF得分；

步骤2.2、对于每个标签，使用单独的MNB分类器通过贝叶斯规则估计后验概率：；

其中，表示在文本的条件下属于标签的后验概率，表示在标签的条件下文本出现的似然概率，表示标签的先验概率；

步骤2.3、计算对数后验，以保持数值稳定性：；

其中，表示标签的条件下出现的概率；

步骤2.4、使用平滑训练数据，估计：；

其中，、表示单词和在以标记的样本中出现的次数，是平滑因子；

步骤2.5、计算每一类的原始对数概率，通过Sigmoid函数进行归一化并转换为伪概率：；

其中，为通过朴素贝叶斯分类器对输入文本进行处理后，得到的文本属于第个标签的预测概率；

步骤2.6、得到最终的朴素贝叶斯集成预测向量：；

所述朴素贝叶斯集成预测向量在反向传播期间不会更新，用于充当外部信号，通过一致性损失使BERT模型正则化；

步骤3、在训练阶段，引入一致性正则化损失，以得到的朴素贝叶斯集成预测向量为外部信号，强制要求BERT模型和朴素贝叶斯集成模型的预测概率对每个标签进行对齐；

步骤4、在推理阶段，将BERT模型和朴素贝叶斯集成模型联合部署，以概率的方式进行融合预测，得到多标签敏感文本检测结果。

2.根据权利要求1所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，步骤1中，计算BERT模型的预测概率，方法如下：步骤1.1、对于给定的输入文本序列，最大长度为，通过函数将每个标记映射为上下文隐藏向量，生成隐藏状态：；

其中，是BERT的隐维；

步骤1.2、使用与特殊分类令牌对应的隐藏状态作为整个序列的定长表示，提取令牌对应的隐藏向量：；

其中，是提取令牌对应的隐藏向量，是BERT模型对输入文本进行编码后特殊分类令牌对应的隐藏状态向量；

步骤1.3、将汇集的向量通过一个线性分类层投影到一个维的输出空间中：；

其中，是线性分类层的权重矩阵，用于将BERT模型提取的隐藏状态投影到标签空间，是线性分类层的偏置向量，用于调整线性变换结果；

步骤1.4、执行多标签分类，按元素应用Sigmoid激活函数：；

其中，是通过线性分类层计算得到的结果向量中的各个元素，是BERT模型的概率输出向量。

3.根据权利要求1所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，步骤2.1中所述TF‑IDF得分，计算方式为：；

其中，表示词频，是单词在文本中出现的次数除以文本的总单词数；表示逆文档频率，是语料库中文档总数除以包含单词的文档数。

4.根据权利要求1所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，步骤3中，所述一致性正则化损失通过均方误差定义，表示为：；

通过向量形式表示为：

；

其中，为BERT模型的概率输出向量，为朴素贝叶斯集成模型的相应输出向量，为一致性损失。

5.根据权利要求4所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，对于BERT模型和朴素贝叶斯集成模型不一致度超过预设阈值的样本，一致性正则化损失使用门控函数计算：；

其中，为门控函数，为一致性损失，是门控函数作用于原本一致性损失后的结果。

6.根据权利要求5所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，总训练目标结合BERT的监督分类损失和一致性损失计算，表示为：；

其中，是非负的超参数，用于控制一致性正则化的相对重要性。

7.根据权利要求6所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，步骤4所述推理过程中，预测向量通过凸组合计算：；

其中，和分别是来自BERT模型和朴素贝叶斯集成模型的预测概率向量，是融合权超参数，用于平衡每个模型的贡献。

8.根据权利要求7所述的融合BERT与朴素贝叶斯集成的多标签敏感文本检测方法，其特征在于，对每个标签维度应用固定阈值，将软概率转换为用于多标签分类的二元标签决策：；

当标签分布高度不平衡时，在验证集上调整标签特定阈值：；

其中，是凸组合计算得到的软概率，是二元标签决策。

推荐专利

一种融合词向量模型和朴素贝叶斯的查询词改写方法

基于朴素贝叶斯的用户操作引导方法、装置、设备及介质

发明专利

￥27600

一种基于BERT和特征融合的文本自动分类方法

发明专利

面议

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们