利索能及
我要发布
收藏
专利号: 2022103784640
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种深度神经网络对抗样本评分方法,其特征在于,包括以下步骤:步骤一,计算对抗样本的可迁移性、不可察觉性、攻击成功率和标签偏移度,所述对抗样本为图像对抗样本和/或文字对抗样本;

所述计算对抗样本的可迁移性的步骤包括:

步骤1:MN是一组用于评价的神经网络模型,基于待评价的对抗样本生成算法a对目标神经网络模型M1生成对抗样本ac;

步骤2:重新训练目标神经网络模型M1,使用对抗样本ac对其进行测试,得到识别准确率AR1;

步骤3:训练神经网络模型Mi,i=2,3,...N,使用对抗样本ac对其进行测试,得到ARi,直到i>N,N表示测试神经网络模型的数量;

步骤4:计算对抗样本的可迁移性Tf,计算公式为

所述计算不可察觉性包括计算图像对抗样本的不可察觉性和计算文字对抗样本的不可察觉性;

所述计算图像对抗样本的不可察觉性为:p范数Lp计算干净图像x与产生的图像对抗样本x′之间的输入空间的距离||x‑x′||p,其中p∈{0,1,2,∞},具体距离计算公式如下所示:所述计算文字对抗样本的不可察觉性为:采取语言模型困惑度的得分判断语句扰动大小和语义真实性,困惑度越小,文本对抗样本的不可察觉性越高,文本对抗样本的困惑度PP(w)的计算公式如下:其中,wi表示词语序列w1,w2,...,wi‑1中的第i个词,N表示词的总数量,p(wi|w1,w2,...,wi‑1)表示在给定一句话的前i‑1个词,语言模型可以预测第i个词可能出现的概率分布,句子概率越大,语言模型越好,迷惑度越小;

所述计算攻击成功率包括:

对于定向攻击,攻击成功率的计算公式为:

其中,a表示对抗样本生成算法,f表示目标模型的分类算法, 是定向攻击的目标类型,N表示样本数量,xi是第i个原始样本,a(xi)表示样本xi在算法a下生成的对抗样本,表示在 的情况下模型识别准确率的降低值;

对于非定向攻击,只需要计算分类结果与原始样本yi不同的情况,其公式如下:其中,N表示样本数量,xi是第i个原始样本,a(xi)表示样本xi在算法a下生成的对抗样本,f表示目标模型的分类算法,I(f(a(xi))≠yi)表示在f(a(xi))≠yi的情况下模型识别准确率的降低值;

所述计算标签偏移度具体包括以下步骤:

步骤1:输入目标神经网络模型M、原始样本集xc、对抗样本生成算法a;

步骤2:计算目标神经网络模型M对原始样本 的预测类别 其中i=1,2,...,n,n表示样本数量,模型M对原始样本 预测的每个类别的概率集 模型M对原始样本 预测类别结果为 的概率 其中 如果 返回步骤2,进行下一个样本的计算;

步骤3:根据对抗样本生成算法a生成原始样本 的对抗样本 计算出模型M对对抗样本 预测的每个类别的概率集 模型M对原始样本 预测类别结果为 的概率步骤4:计算出在模型M对对抗样本 预测类别为 的偏移程度, 令i=i+1,直到i>n;

步骤5:计算对抗样本的标签偏移度LO,计算公式为

步骤二,确定隶属度子集表,利用所述可迁移性、不可察觉性、样本构造成本的隶属度子集表,获得各指标的如下隶属度矩阵R,其中,矩阵中的元素rij,当i=1时表示可迁移性的隶属度向量,当i=2时表示不可察觉性的隶属度向量,当i=3时表示攻击成功率的隶属度向量,当i=4时表示标签偏移度的隶属度向量,步骤三,利用层次分析法确定各方面评价权重A;所述评价权重A包括可迁移性、不可察觉性、攻击成功率、标签偏移度的权重,A={A1,A2,A3,A4);

步骤四,模糊综合评价矩阵,得到对抗样本评分指数;模糊综合评价公式如下:其中A是可迁移性、不可察觉性、攻击成功率、标签偏移度四个指标的权重大小,R是根据指标计算结果求得的隶属度矩阵,B是最终得到的被利用性的评价结果矩阵;由于上述计算结果求出的只是一个模糊向量,无法直观看出对抗样本的危害性,需要这个隶属度向量进行反模糊化处理,以得到最终的AES指数来对对抗样本进行评分,最终计算AES指数的公式如下:bj为权数,vj为评价集。