买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多头注意力机制的个性化联邦学习方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多头注意力机制的个性化联邦学习方法

￥31200

专利号： 202110792988X

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多头注意力机制的个性化联邦学习方法，其特征在于包含以下步骤：步骤一：搭建联邦学习局部模型多头注意力机制模型：将多头注意力机制用于最经典的卷积神经网络中，通过多头注意力机制，保留关键信息，更好地进行特征提取和选择，提高识别的准确性；

步骤二：搭建联邦学习全局模型多头注意力机制模型：考虑到各个局部模型的个性化问题对全局模型的影响，在将全局模型参数发送给局部模型时，根据模型的个性化特性做出相应变化。

2.根据权利要求1所述的一种基于多头注意力机制的个性化联邦学习方法，其特征在于：所述的步骤一中搭建联邦学习局部模型多头注意力机制模型包含以下步骤：第一步：从服务器获得最新的模型更新数据集为Dk，随机将数据集Dk划分为批量B的大小，将其放入网络模型训练；

第二步：搭建卷积层，采用最经典的卷积神经网络CNN，达到提取特征的目的，加入多头注意力机制，如式(1)、(2)和(3)所示，根据输入的特定部分的重要性根据其与输出的相关性计算一个权重，可以给到输入的元素分配一个相关分数，并忽略有噪声的部分，通过多头注意力机制，保留关键信息，更好地进行特征提取和选择，提高识别的准确性。

MultiHead(Q，K，V)＝Concat(head1，...，headh)W (2)其中，Q是查询矩阵，V和K是矩阵的键值，是缩放因子，用于调节，防止Q、K的内积太大，对queries，keys以及values进行n次不同的线性映射，学习到的线性映射分别映射到dk，dk以及dv维，分别对每一个映射之后的得到的queries，keys以及values进行attention函数的Concat并行操作，生成dv维的output值，是dk/h，dk/h以及o

dv/h维度的多头注意力机制的权重矩阵，W是dO维的输出权重矩阵；

第三步：局部更新模型参数，如式(4)所示，之后将当前局部模型参数，发送给全局模型。

ω←Concat(head1，head2，...，headn)ω (4)其中，对多头进行attention函数的Concat并行操作，是批梯度，α为学习率，ω为局部模型参数。

3.根据权利要求1所述的一种基于多头注意力机制的个性化联邦学习方法，其特征在于：所述的步骤二中搭建联邦学习全局模型多头注意力机制模型包含以下步骤：第一步：在全局模型上，设计和采用了一个适用于多头注意力机制的联邦学习上传和分配的框架，为了初步减少局部模型个性化问题对全局模型的影响，先用联邦平均算法聚合局部模型参数到全局模型，并将聚合后的模型更新发回给客户端，重复进行这一过程，直至模型收敛、达到最大迭代次数或者达到最大训练时间，保存此时的全局模型参数，将这一步骤作为预训练；

第二步：计算出当前局部模型参数和预处理后全局模型参数的距离，得出模型间的差异性从而为局部模型制定个性化系数，具体如式(6)、(7)所示。

其中，λk为初始聚合到全局模型的局部模型系数因子，w0为预处理过后全局模型的权重参数，为第k个客户端当前在局部数据训练局部模型后的权重参数，计算预处理后权重参数和当前局部模型权重参数的差值，f函数保证数据在0到1之间，可以减少差异较大的数据的占比从而初步解决模型个性化问题对聚合的影响，减少数据噪声增加的风险，之后对数据做了归一化处理，保证多分类的概率之和为1；

第三步：按照局部模型参数和预处理后全局模型参数的差异性将局部模型的模型参数聚合到全局模型，将局部的更新模型参数赋予个性化系数λk后发送给服务器，服务器将接收到的模型参数进行聚合，最后对收到的模型参数使用加权平均，具体如式(8)所示。

其中，nk为第k个参与方的局部数据量，为此时局部模型的参数，之后服务器将聚合后的模型参数发送给所有参与方；

第四步：对于联邦平均算法对模型个性化的影响，计算全局模型参数在当前局部模型上的重要性得分，将其作为注意力头系数分配给局部模型，具体如式(9)、(10)所示。

其中，为局部数据训练局部模型的参数更新，θi为根据局部的个性化问题给全局模型的权重赋予变量系数，将变量系数和全局模型的参数相乘，将发送给各参与方。