利索能及
我要发布
收藏
专利号: 2021115182290
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种中文文本对抗样本生成的方法,其特征在于,包括如下步骤:获取原始文本数据,且所述原始文本数据为中文文本分类器的输入数据;

构建一个深度学习攻击模型,使用数据聚集的方法迭代生成训练数据,并使用强化学习的方法训练模型;

使用训练好的攻击模型,输入到所述原始文本数据,以获得对抗样本。

2.根据权利要求1所述的中文文本对抗样本生成的方法,其特征在于,所述步骤构建一个深度学习攻击模型,使用数据聚集的方法迭代生成训练数据,并使用强化学习的方法训练模型中,构建一个深度学习攻击模型包括如下子步骤:初始化一个攻击模型架构,所述攻击模型架构包括有嵌入层、编码层、解码层和线性层;

初始化攻击模型的参数。

3.根据权利要求2所述的中文文本对抗样本生成的方法,其特征在于,所述步骤初始化一个攻击模型架构,所述攻击模型架构包括有嵌入层、编码层、解码层和线性层中,所述嵌入层、编码层和解码层依次串联,且所述嵌入层长度最大为512,解码层和线性层之间用一个Dropout单元连接,所述线性层由768个输入神经单元和1个输出单元的多层感知机构成。

4.根据权利要求2所述的中文文本对抗样本生成的方法,其特征在于,所述步骤初始化攻击模型的参数中,包括如下子步骤:使用预训练模型的参数来初始化嵌入层、编码层和解码层;

使用随机参数来初始化线性层。

5.根据权利要求2所述的中文文本对抗样本生成的方法,其特征在于,所述步骤构建一个深度学习攻击模型,使用数据聚集的方法迭代生成训练数据,并使用强化学习的方法训练模型中,使用数据聚集的方法迭代生成训练数据包括如下子步骤:对原始文本数据的每一个句子,使用Jieba分词工具做分词操作,得到每个句子的词语集合s={w1,...,wi,...,wn},其中s表示当前句子,wi表示分词后的第i个词语;

对分词操作后的每个词语,计算其显著性,具体计算公式为s={w1,...,wi,...,wn}和 其中S(s,wi)表示句子s中第i个词wi的显著性,P(ytrhe|s)表示原句子被中文文本分类器分类为ytrhe的概率,表示句子s删除wi词语之后剩余的文本, 表示文本 被中文文本分类器分类为ytrhe的概率;

对分词操作后的每个词语wi,利用WordNet,构建其同义词集合,作为替换的候选词集合Ci={c1,...,cn};

构建的候选词集合中的每一个候选词,计算其有效性,具体计算公式如下:E(s,wi,cj)=P(ytrue|s)‑P(ytrue|s′i),s={w1,…,wi,…,wn}和s′i={w1,…,wi‑1,cj,wi+1…,wn};其中E(s,wi,cj)表示句子s中第i个词wi的候选词cj的有效性,其中s′i表示句子s使用候选词cj替换词语wi之后的文本,P(ytrue|s′i)表示文本s′i被中文文本分类器分类为ytrue的概率;

对每一个wi,和每个词的候选词,给出一个替换的评分Score=S(s,wi)*E(s,wi,cj),选择其评分最高的候选词c′替换wi,定义为一次替换tpi(s,wi,c′),对整个句子合构成一个文本处理集合TP={tp1,…,tpn};

遍历集合TP,迭代地对原句子进行替换,生成的s′i数据构成对抗样本候选集;对抗样本候选集即训练数据集的文本数据;遍历对抗样本候选集,并且查询中文文本分类器,如果迭代完攻击策略,受害者模型的输出与原标签一致,则以最后一次迭代的索引作为标签添加进数据集;如果分类结果与原标签不一致,以当前句子在数据集中的索引作为标签添加进数据集;

遍历原数据集的每一个句子,实施以上操作步骤,即为迭代生成的训练数据集。

6.根据权利要求5所述的中文文本对抗样本生成的方法,其特征在于,所述步骤构建一个深度学习攻击模型,使用数据聚集的方法迭代生成训练数据,并使用强化学习的方法训练模型中,使用强化学习的方法训练模型包括如下子步骤:使用每一次迭代获得的训练数据,对模型进行相应的一次迭代的训练;

把训练任务建模为一个多分类问题,对于每个原始句子产生的k条训练数据,输入攻击模型,输出k个分数,使用交叉熵损失函数更新模型参数;

完成一次迭代训练之后,继续迭代生成新的训练数据集,做下一次迭代训练。

7.根据权利要求1所述的中文文本对抗样本生成的方法,其特征在于,所述步骤使用训练好的攻击模型,输入到所述原始文本数据,以获得对抗样本中,获得对抗样本包括如下子步骤:

对原始数据的每一个句子,获得攻击模型的输入数据,所述输入数据为目标句子生成的对抗样本候选集;

输入获取的数据,攻击模型输出一个标签,映射这个标签对应的文本数据,即可获得攻击模型生成的对抗样本。

8.一种中文文本对抗样本生成的系统,其特征在于,包括:文本处理模块,所述文本处理模块用于原数据文本的分词操作、词语同义词集构建、计算词语显著性、计算替换词有效性、生成文本处理集合;

训练数据生成模块,所述训练数据生成模块用于便利生成文本处理集合,对原始文本进行替换操作,生成训练数据的文本部分;查询中文文本分类器,生成训练数据的标签部分;

训练模块,所述训练模块用于初始化模型架构和参数,迭代地生成训练数据和训练模型;

攻击模块,所述攻击模块用于向训练好的攻击模型输入原数据,且攻击模型输出对抗样本。

9.一种中文文本对抗样本生成的系统,其特征在于,包括用于执行如权利要求1‑7任一项权利要求所述的方法的单元。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,使所述处理器执行如权利要求1‑7任一项所述的方法。