1.面向无标签公共数据集的联邦学习隐私保护方法,其特征在于,包括:
服务器向多个客户端下发联邦学习任务和无标签公共数据集,并通知辅助节点生成同态加密密钥对,公钥下发至各个客户端;
各个客户端向服务器上报本地私有数据量,并保留加密密钥;服务器根据本地私有数据量将客户端划分为大数据量客户端和常规客户端;
客户端对无标签公共数据集进行推理,并将所得预测值进行公钥加密后上传至服务器;服务器根据客户端类型进行聚合处理,生成全局预测结果和伪标签,并下发至所有客户端;其中,服务器根据客户端类型进行聚合处理,包括:由服务器对所有客户端和大数据量客户端的预测值密文分别进行聚合,以生成无标签公共数据集的全局预测结果和伪标签预测值密文;
客户端基于所得全局预测结果和伪标签进行本地模型的迭代优化,包括:当样本数据无对应伪标签时,采用全局预测结果的KL散度损失函数进行迭代优化;当样本数据存在对应伪标签时,采用伪标签的加权损失函数进行迭代优化。
2.如权利要求1所述的面向无标签公共数据集的联邦学习隐私保护方法,其特征在于,由服务器根据客户端类型进行聚合处理,还包括:服务器将所述全局预测结果和伪标签预测值密文发送至辅助节点,由辅助节点使用私钥进行解密并向服务器返回明文;服务器基于解密后的伪标签预测值生成伪标签。
3.如权利要求1所述的面向无标签公共数据集的联邦学习隐私保护方法,其特征在于,服务器仅对加密后的密文聚合处理,即聚合处理全程在密文状态下直接执行。
4.如权利要求1所述的面向无标签公共数据集的联邦学习隐私保护方法,其特征在于,当样本数据的伪标签预测值中最大类别概率不满足大于伪标签阈值时,则认为该样本数据无对应伪标签。
5.如权利要求1所述的面向无标签公共数据集的联邦学习隐私保护方法,其特征在于,服务器将本地私有数据量是否超过数据量阈值作为客户端类型的划分依据;且,所设数据量阈值介于所有客户端的本地私有数据量的最小值与最大值之间。
6.面向无标签公共数据集的联邦学习隐私保护系统,采用如权利要求1‑5任一项所述的隐私保护方法,其特征在于,包括:服务器,被配置为:在初始化阶段,向多个客户端下发联邦学习任务和无标签公共数据集,并通知辅助节点生成同态加密密钥对;根据本地私有数据量将客户端划分为大数据量客户端和常规客户端;在联合训练阶段,根据客户端类型进行聚合处理,生成全局预测结果和伪标签,并下发至所有客户端;
辅助节点,被配置为:同态加密密钥生成及密文解密;
多个客户端,被配置为:向服务器上报本地私有数据量,并保留加密密钥;对无标签公共数据集进行推理,并将所得预测值进行公钥加密后上传至服务器;基于所得全局预测结果和伪标签进行本地模型的迭代优化。
7.如权利要求6所述的面向无标签公共数据集的联邦学习隐私保护系统,其特征在于,所述服务器包含双重聚合单元,用于并行执行所有客户端的大数据量客户端的聚合处理。
8.如权利要求6所述的面向无标签公共数据集的联邦学习隐私保护系统,其特征在于,所述辅助节点独立于服务器和客户端,在完成解密后立即删除明文数据,且私钥不向服务器和客户端传输。