利索能及
我要发布
收藏
专利号: 2024114154085
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于注意力机制的扩散模型架构搜索方法,其特征在于,所述方法输入的是图像,包括以下步骤:步骤1,构建一个扩散模型骨干架构超网;

步骤2,向扩散模型骨干架构超网加入注意力机制,以计算输入节点中每个特征图的注意力权重;

步骤3,根据步骤2中计算的注意力权重从每个输入节点中选择出特征图参与前向传播;

步骤4,向扩散模型骨干架构超网每条边的候选操作后加入注意力机制,以计算每条边中所有候选操作输出特征图的注意力权重;

步骤5,训练扩散模型骨干架构超网,直至目标函数达到收敛;

步骤6,将步骤4中计算的注意力权重进行累加,以得到扩散模型骨干架构超网收敛时每条边所对应注意力权重最大的操作,并根据操作构建最优子网;

步骤1中,所述扩散模型骨干架构超网包括1个全连接层、4个下采样层、4个上采样层和

9个卷积模块;

每个下采样层包含1个全局最大池化操作;每个上采样层包含1个转置卷积操作;每个卷积模块包含3个节点和2条边,其中所述3个节点表示3组特征图,2条边表示2组卷积操作,每组卷积操作包含2个普通卷积操作和3个深度可分离卷积操作;

所述全连接层、下采样层和上采样层为固定层不参与搜索,卷积模块为搜索层,搜索过程即从卷积模块的每条边中选择一个最优的操作作为最终最优子网的操作;

步骤2包括:每个卷积模块包含3个节点,前2个节点视为输入节点,一共有9个卷积模块,因此一共需要向超网中加入18个注意力机制;

采用如下方法将注意力机制加入到每个卷积模块的输入结点之后:首先,对输入节点中的特征图进行全局压缩操作,以获得每个特征图的全局信息,所述压缩操作包括全局平均池化和全局最大池化,压缩操作分别计算每个特征图的平均值和最大值,将特征图的空间维度压缩为1,从而得到一个仅包含通道信息的向量;

然后,利用一个全连接层对所述向量进行变换,以学习每个通道的注意力权重,并使用非线性激活函数ReLU来增加全连接层的非线性能力,并使用Sigmoid函数将权重归一化到[0,1]之间;

最后,将学习到的权重与原始特征图的每个通道相乘,以实现通道级别的加权,使得每个特征图根据注意力权重调整贡献度;

步骤3包括:首先,将步骤2计算得到的注意力权重由大到小排序,选择出前1/4值较大的注意力权重;然后,循环遍历输入节点的加权特征图,如果加权特征图所对应的注意力权重属于选择出的前1/4的注意力权重,则将加权特征图标记为1,否则标记为0;最后,选择出标记为1的加权特征图,并拼接为卷积模块中每条边的输入特征图;

步骤4包括:

步骤4.1,将步骤3选择出的加权特征图输入到卷积模块每条边中的候选操作;

步骤4.2,拼接每条边中候选操作的输出特征图,并输入到注意力机制以计算注意力权重;

步骤4.3,对应用了注意力机制的特征图进行特征图相加;

步骤4.1中,将步骤3中选择出的加权特征图同时输入到卷积模块每条边中的5个候选操作,表示为:Fi=Oi(Fselect)       (1)

其中,Fselect表示步骤3中选择出的加权特征图,Oi表示卷积模块第i条边中的候选操作,Fi表示第i个候选操作的输出特征图,i=1,…,5;

5个候选操作接收到输入特征图后会输出5组对应的特征图,然后根据输出的5组对应的特征图的重要性判断5个候选操作的重要性;

步骤4.2包括:将五组对应的特征图进行拼接,然后将拼接后的特征图输入到注意力机制以计算每一个特征图的注意力权重,表示为:Atten=σ(F2(Relu(F1(Fcon)))) (2)其中,Atten表示计算得到的注意力权重,σ表示Sigmoid函数,F2和F1表示全连接层,Relu表示激活函数,Fcon表示拼接的特征图;

最后将拼接后的特征图与注意力权重相乘得到加权特征图,以实现对重要特征的突出与非重要特征的抑制;

步骤4.3包括:首先,将不同操作对应的加权特征图分离开,得到5组加权特征图;然后,循环遍历5组加权特征图,每次从每组各取出1个特征图进行相加,最终将5组加权特征图加为1组加权特征图;

步骤5包括:当完成了步骤1、步骤2和步骤4后,得到一个构建好的扩散模型骨干架构超网,并且已经在超网中添加好了注意力机制,对超网进行训练:首先,选择交叉熵损失函数作为训练扩散模型的目标函数;然后,设置训练过程中的超参数;最后,训练扩散模型,直至目标函数达到收敛;

步骤6包括:将不同操作输出特征图对应的注意力权重分离开;将分离开的注意力权重进行各自累加,此时的累加值就代表每个操作的重要性;从卷积模块的每条边中选择累加值最大的操作构建最优子网。

2.根据权利要求1所述的方法实现的基于注意力机制的扩散模型架构搜索系统,其特征在于,包括:构建模块,用于构建一个扩散模型骨干架构超网;向扩散模型骨干架构超网加入注意力机制,以计算输入节点中每个特征图的注意力权重;根据计算的注意力权重从每个输入节点中选择出特征图参与前向传播;向扩散模型骨干架构超网每条边的候选操作后加入注意力机制,以计算每条边中所有候选操作输出特征图的注意力权重;

训练模块,用于训练扩散模型骨干架构超网,直至目标函数达到收敛;

优化模块,用于将计算的注意力权重进行累加,以得到扩散模型骨干架构超网收敛时每条边所对应注意力权重最大的操作,并根据操作构建最优子网。