1.一种基于激活图的联邦学习版权保护方法,其特征在于,具体包括以下步骤:S1.构建检测器,并对检测器进行预训练;
S2.分别为每个客户端定义一个正态分布 的潜在空间和一个约束 ,以便生成不同强度的高斯噪声触发集,触发集输入到模型得到某一层的激活图,同时构建投影模型,将水印信息无缝嵌入到客户端模型对应层的激活图中,包含水印信息的模型记为水印模型 ,不包含水印信息的模型记为非水印模型;
S3.保存每一轮的投影模型参数,将水印模型分发给各个客户端,各个客户端利用本地数据对水印模型进行训练,完成训练后,客户端将更新后的水印模型上传到服务器;
S4.利用训练后的检测器对更新后的各个水印模型进行全面检测,识别并过滤掉含有恶意修改或潜在风险的水印模型;
S5.在确认各水印模型的安全性后,服务器采用联邦学习算法对各个更新后的水印模型进行聚合,通过计算各个水印模型参数的加权平均值生成全局模型,重复上述步骤S2‑S5对全局模型进行重复训练直至符合精度要求;
S6.全局模型训练完成后,保存为客户端正态分布 的潜在空间和约束 、投影模型的参数,用于后续追溯恶意客户端;
S7.面对可疑模型,通过服务器保存的所有客户端的正态分布 及约束 参数、投影模型 提取可疑模型的水印 ,并将其与客户端水印逐一进行匹配,若匹配率大于预先设定的阈值,则对应客户端视为泄露模型的恶意客户端;
分别为多个客户端模型嵌入水印,将水印 嵌入到目标模型的秘密选择的 层中,具体如下:水印正则化项 被定义为:
式中, 为投影模型, 为水印提取器, 是 的水印版本, 是随机水印,是第n个客户端的水印, 是水印距离度量,TS是来自潜在空间的触发集样本, 是秘密提取密钥;
全局嵌入损失 如下:
式中, 为原始目标模型损失项, 为水印正则化项, 是调整原始目标模型损失项和水印正则化项 之间的权衡, 为训练集的特征, 为训练集的标签;
的参数根据以下正则化项进行相应更新,以保持原始目标模型的准确性并最小化激活图的投影与水印 之间的距离;
式中, 表示水印模型 的模型参数权重, 为原始目标模型损失项, 为训练集的特征, 为训练集的标签, 为投影模型, 是调整原始目标模型损失项和水印正则化项 之间的权衡, 是水印距离度量, 为水印提取器,TS是来自潜在空间的触发集样本, 是秘密提取密钥, 是第n个客户端的水印, 是 的水印版本;
的参数 根据以下正则化项进行更新:
式中, 是调整原始目标模型损失项 和水印正则化项 之间的权衡, 是水印距离度量, 为投影模型, 为水印提取器, 为水印模型,TS是来自潜在空间的触发集样本, 是秘密提取密钥, 为无关投影模型, 是第 个客户端的水印,是随机水印,是投影模型 的相关参数;
对各个更新后的水印模型进行聚合,通过计算各个水印模型参数的加权平均值生成全局模型 ,具体步骤如下:(1)服务器将值 与动态阈值 进行比较,值 不大于动态阈值 ,则将对应的水印模型应用于联邦学习的聚合过程中,具体如下:式中, 为联邦学习第 轮的阈值, 是第n个客户端第t轮的均方误差,N代表客户端数量;
(2)服务器对良性客户端的模型进行聚合,具体如下:
式中, 表示第t轮的全局模型, 表示第n个客户端第t轮的模型,N表示客户端数量;
所述泄露模型的恶意客户端的追溯,具体步骤如下:
(1)服务器将使用为相关客户端保存的参数生成触发集样本,这些参数包括客户端特有的正态分布 和约束 ,生成的触发集样本被输入到疑似恶意的模型中,通过模型的反应产生相应的激活图,将相应的激活图输入到投影模型 中,提取水印 ;
(2)将提取的水印 与服务器为各个客户端预定义的水印集合 进行匹配,若匹配率大于预先设定的阈值,则对应客户端视为泄露模型的恶意客户端,具体为:式中, 为字符逐一匹配, 是第 个客户端的水印, 为从客户端模型中提取的水印, 为预先设定的阈值, 为匹配率。
2.根据权利要求1所述的一种基于激活图的联邦学习版权保护方法,其特征在于:所述对检测器进行预训练,包括以下步骤:(1)从为每个客户端定义的一个正态分布 的潜在空间内导出对应的触发集样本,服务器将客户端的触发集样本输入正常模型和恶意模型中,得到对应的激活图,然后使用 对激活图进行归一化,并使用均方误差对其进行评估,具体如下:式中, 和 分别表示第n个客户端在第t轮下发前的激活图和归一化激活图, 表示第n个客户端在第t轮上传的归一化激活图, 是第n个客户端第t轮的均方误差, 是均方误差;
(2)选择使用随机梯度下降算法来调整网络的权重参数,以此来优化检测器模型,设置算法的学习率为0.01,并进行100个训练周期,在训练过程中,检测器将学习识别不同模型产生的激活图之间的微妙差异,从而能够有效区分正常模型和各种恶意模型的输出。
3.根据权利要求2所述的一种基于激活图的联邦学习版权保护方法,其特征在于:所述投影模型 将水印模型 的激活图映射到水印 ,将非水印模型的激活图映射到一个随机水印 ,将 到 的触发集激活图的投影以及 到 的触发集激活图的投影关联起来,在 和 的更新中共享函数 ,用于实现参数 和 之间的优化,以使得激活图的投影接近 ,同时又不影响模型的分类精度,并且对于 来说是唯一的。
4.根据权利要求3所述的一种基于激活图的联邦学习版权保护方法,其特征在于,利用训练后的检测器对更新后的各个水印模型进行全面检测,具体步骤如下:(1)将触发集样本输入到客户端上传模型中得到对应层的激活图;
(2)检测器将上一轮下发前的激活图与本轮得到的激活图比较得到值 ;
(3)将得到的值 与动态阈值 进行对比,大于动态阈值 的值 所对应的水印模型为恶意修改或潜在风险的水印模型。
5.根据权利要求4所述的一种基于激活图的联邦学习版权保护方法,其特征在于:所述水印 的提取,具体如下:式中, 为可疑的水印模型, 为特征提取密钥, 为投影密钥, 为潜在
空间, 为从客户端模型中提取的水印,TS为来自潜在空间的触发集样本,CE是交叉熵函数, 为均值, 为水印提取器, 为投影模型。
6.一种基于激活图的联邦学习版权保护系统,用于实现权利要求1至5中任一项所述的一种基于激活图的联邦学习版权保护方法,其特征在于:包括:预训练模块,用于构建检测器,并对检测器进行预训练;
水印嵌入模块,用于分别为每个客户端定义一个正态分布 的潜在空间和一个约束 ,以便生成不同强度的高斯噪声触发集,触发集输入到模型得到某一层的激活图,同时构建投影模型 ,将水印信息无缝嵌入到客户端模型对应层的激活图中,包含水印信息的模型记为水印模型 ,不包含水印信息的模型记为非水印模型;
水印模型训练模块,用于保存每一轮的投影模型参数,将水印模型分发给各个客户端,各个客户端利用本地数据对水印模型进行训练,完成训练后,客户端将更新后的水印模型上传到服务器;
检测模块,用于利用训练后的检测器对更新后的各个水印模型进行全面检测,识别并过滤掉含有恶意修改或潜在风险的水印模型;
聚合模块,用于在确认各水印模型的安全性后,服务器采用联邦学习算法对各个更新后的水印模型进行聚合,通过计算各个水印模型参数的加权平均值生成全局模型,对全局模型进行重复训练直至符合精度要求;
数据保存模块,用于当全局模型训练结束后,保存为客户端正态分布 的潜在空间和约束 、投影模型的参数,用于后续追溯恶意客户端;
恶意客户端追溯模块,用于通过服务器保存的该客户端正态分布 及约束 参数、投影模型 提取可疑模型的水印 ,并将其与其余客户端水印逐一进行匹配,若匹配率大于预先设定的阈值,则对应客户端视为泄露模型的恶意客户端。
7.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至5中任一项所述的基于激活图的联邦学习版权保护方法。