利索能及
我要发布
收藏
专利号: 2025101084036
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于演化神经架构搜索的轻量级潜在扩散模型设计方法,所述轻量级潜在扩散模型用于图像生成任务,其特征在于,包括以下步骤:步骤1,选择一个预训练好的变分自编码器VAE,使用变分自编码器VAE中的编码器E将输入图像数据从原始像素空间转换到潜在空间,输入图像数据在潜在空间中用潜在数据分布来表示;接着,在潜在空间中执行噪声添加过程,直到潜在数据分布达到纯噪声的状态;

随后,在潜在空间中依次完成步骤2到步骤8的操作,等待步骤8结束后,利用步骤8中得到的网络架构执行纯噪声数据的去噪操作;

步骤2,选择一个与图像生成相关的预训练模型作为教师模型,并根据教师模型的网络架构来设计学生模型的网络架构,然后以分辨率级别的不同为依据将教师模型和学生模型的网络架构分别划分为两个以上区块;

步骤3,定义学生模型的架构搜索空间,根据步骤2中设计的学生模型架构构建一个学生超网,并对学生超网进行训练;

步骤4,在每个学生模型区块内均随机初始化一个架构种群,并评估每个区块中初始种群内个体的性能;

步骤5,对父代架构进行交叉与变异操作,生成子代架构,逐步扩展搜索空间,探索潜在的优良架构;

步骤6,对于经过演化操作新生成的子代种群,使用与步骤4中相同的评估方式计算种群个体的适应度值;在新生成的子代架构经过适应度值评估后,将演化生成的子代架构种群与父代架构种群合并形成一个种群称为扩展种群Pextended,然后使用精英选择策略,根据适应度值对所有架构进行排序,排序结束后仅保留扩展种群Pextended中适应度值高的架构作为新一代种群Pnext,作为下一轮演化和评估的基础种群;

步骤7,学生模型的每个区块重复执行步骤5至步骤6,直至满足预设的停止条件,停止搜索;随后,从学生模型的每个区块中选取适应度值最高的架构,作为学生模型每个区块中最终搜索到的最优架构;

步骤8,将学生模型每个区块中最终搜索到的最优架构按照区块大小顺序从小到大依次连接起来,组成一个完整的网络架构,所述完整的网络结构被称为子网;

步骤9,对步骤8中得到的子网进行重训练,在子网重训练过程中,引入一种动态联合损失函数;所述重训练指的是使用步骤8中搜索得到的子网在训练数据集train上接着步骤1中的操作执行纯噪声数据的噪声去除操作;

步骤10,使用步骤9中重训练好的子网进行采样,生成最终图像,在采样过程中,使用变分自编码器VAE中的解码器D将子网去除噪声后得到的潜在数据分布映射回像素空间,最终输出生成的图像样本;

步骤2中,选择一个与图像生成相关的预训练模型作为教师模型,根据教师模型的网络架构设计一个轻量化的学生模型,教师模型和学生模型的骨干网络均采用U型网络架构UNet,所述U型网络架构UNet包括编码器阶段、中间阶段和解码器阶段,在编码器阶段和解码器阶段的每个区块中,学生模型网络架构中的残差块数量仅为教师模型网络架构中的一半;最后,根据分辨率级别的不同将教师模型和学生模型的网络架构分别划分为两个以上区块,其中,编码器阶段划分的区块称为编码器块,解码器阶段划分的区块称为解码器块;

步骤3包括:

步骤3.1,对教师模型和学生模型进行区块化定义:

其中,i=0,1,...,n‑1表示分辨率水平的级别,总共有n个级别;T表示教师模型, 和分别表示教师模型中分辨率级别为i的编码器块和解码器块,Mt表示教师模型在编码器块和解码器块之间的中间阶段;S表示学生模型, 和 分别表示学生模型中分辨率级别为i的编码器块和解码器块,Ms表示学生模型在编码器块和解码器块之间的中间阶段;

步骤3.2,定义学生模型的架构搜索空间,并根据步骤2中设计的学生模型网络架构构建一个学生超网;所述搜索空间是指学生模型架构中可供选择的设计参数集合,用于定义潜在的架构变体;学生模型的搜索空间只包括学生模型网络架构中残差块的设计选项:残差块中卷积层的卷积核大小取值范围为{1,3,5},残差块中的归一化方式选择组归一化或层归一化;学生超网是一种包含所有可能的学生模型架构的网络结构,学生超网能够在一次训练中包含并支持一个或两个以上不同的学生模型架构;在训练学生超网时采用单路径采样方法,每次随机选择一条路径进行前向传播和参数更新,其中,每条路径对应一个具体的学生模型架构;在对学生超网进行训练的过程中,通过提取教师模型的真实特征图,将学生模型生成的特征图与教师模型对应区块的真实特征图对齐的方式,对学生模型的每个区块进行监督和优化,计算教师模型的中间特征图和学生模型对应区块生成的特征图之间的均方误差L2损失:学生超网训练过程中的损失函数Ltrain为:

其中,j=0,1,...,2m‑1表示学生模型网络架构中的2m个区块,m与步骤3.1中定义的分辨率级别n在数值上相等,将编码器块和解码器块均视为单独的区块,在教师模型和学生模型网络架构中,每个分辨率级别均对应一个编码器块和解码器块,因此总区块个数为2n,即在数值大小上也等于2m;其中,序号索引为0,1,...,m‑1的前m个区块为编码器块,用于逐步提取和压缩特征,序号索引为m,m+1,...,2m‑1的后m个区块为解码器块,用于逐步恢复分辨率并生成输出特征;

αj表示当前第j个区块中正在训练的子网络架构,Xj表示学生模型中第j个区块的输入特征图,来源于教师模型; 表示当Xj属于学生模型的编码器块 时,Xj是教师模型第j‑1个区块的输出Yj‑1; 表示当Xj属于学生模型的解码器块 时,Xj是教师模型U型网络架构UNet中第j个区块的跳跃连接特征Skipj与教师模型第j‑1个区块输出特征图Yj‑1的拼接结果Cat(Yj‑1,Skipj); 表示在学生模型的第j个区块上,使用当前选定的子网络架构αj对输入特征图Xj进行前向传播后生成的特征图;Yj表示教师模型中第j个区块的真实特征图,用于监督指导学生超网的训练;

Skipj是教师模型U型网络架构UNet中第j个编码器块的跳跃连接特征,在教师模型的U型网络架构UNet中,跳跃连接Skip将编码器阶段提取的特征信息直接传递到解码器阶段对应的区块,学生模型的U型网络架构UNet也采用了跳跃连接的方法;

步骤3.3,通过最小化损失函数L′train来优化学生模型中每个区块Xj的可训练网络参数Wj,优化过程表示为:其中,Wj是学生模型中第j个区块的可训练网络参数,具体包括用于卷积操作的权重矩阵,以及归一化层中的缩放参数和偏移参数; 表示在学生模型第j个区块的优化过程中希望获得的最终目标,Aj表示第j个区块的架构搜索空间;

优化过程是通过调整第j个区块的可训练网络参数Wj,最小化损失函数L′train,从而获得当前区块Xj中最优的网络参数 即 其中L′train(Wj,Aj;

Ltrain(Xj,Yj))表示在当前第j个区块的架构搜索空间Aj中,使用当前的网络参数Wj,计算学生模型第j个区块的输出Blockα(Xj)与教师模型第j个区块的真实特征图Yj之间的误差;

步骤9包括:

步骤9.1,利用一种动态联合损失函数,在潜在空间中对步骤8中得到的子网进行重训练;

步骤9.2,设计动态联合损失函数中权重系数β的调整函数,以平滑控制损失函数权重;

步骤9.1包括:所述动态联合损失函数Lretrain为:

Lretrain=l·(1‑β)Ldis+βLori,

其中,β是用于平衡蒸馏损失Ldis和噪声预测损失Lori的权重系数,将权重系数β在子网重训练初期置为0,随着重训练的进行权重系数β的值最终增长到1;l是用于平衡噪声预测损失Lori和蒸馏损失Ldis之间学习率的一个参数;∈表示步骤1中噪声添加过程中加入的实际噪声大小,∈θ是子网中的一个可训练网络参数,用于预测带有噪声分布数据中的噪声,t表示在去噪过程中的当前时间步,αtx+σt∈表示噪声数据分布,其中αt表示噪声数据分布的均值,σt表示噪声数据分布的方差,噪声预测损失Lori是一种基于均方误差L2的损失函数,用于衡量子网在预测带有噪声分布数据中噪声大小时的准确性;

∑jLtrain表示将全部区块中教师模型与学生模型之间的蒸馏损失进行累加,其中蒸馏损失Ldis是一种基于均方误差L2的损失函数,用于计算子网所有区块中学生模型的生成特征图 与教师模型的真实特征图Yj之间的误差和;

步骤9.2包括:使用阶梯函数对系数β进行调整。

2.根据权利要求1所述的方法,其特征在于,步骤4包括:

步骤4.1,在学生模型的每个区块内均初始化一个架构种群,作为初始种群P,定义每代种群中真实评估的架构数量S、搜索总迭代次数T、每次迭代中真实评估的次数Ng;

步骤4.2,定义演化架构搜索中当前的迭代次数G和子种群Q,对初始种群P进行评估。

3.根据权利要求2所述的方法,其特征在于,步骤4.2包括:

步骤4.2.1,对初始种群P中的个体进行编码,并对种群中的每个个体编码进行标准化处理,使用整数编码方式来表示每个区块中的种群个体,编码完成后去除种群中的重复个体和无效个体,剩余的个体称为有效个体;根据当前的迭代次数G和需要在每次迭代中真实评估的次数Ng之间的大小关系,将评估阶段分为两个阶段:G

步骤4.2.2,如果G

在真实评估阶段,将学生模型中具有与教师模型相同架构的子网络架构称为基准网络αbase,对于学生模型第j个区块中的架构搜索空间Aj,选择架构搜索空间Aj中评估损失L′val优于基准网络αbase的评估损失的子网络架构 然后在筛选出的子网络架构 中进一步搜索适应度值最小的子网络架构 其中,适应度值Fitness的计算公式为:其中,s.t.表示受限于,γ是一个放松系数,用于控制从当前区块Xj中筛选出来的子网络架构 与基准网络αbase之间损失值的放松程度,表示在验证数据集val上,使用当前训练的子网络架构 得到

的学生模型第j个区块的输出 与教师模型第j个区块的真实特征图Yj之间的误差 不能大于基准网络αbase得到的学生模型第j个区块的输出与教师模型第j个区块的真实特征图Yj之间的误差

其中, 用于计算从当前区块Xj中筛选出来的子网络架构

与教师模型对应区块的真实特征图Yj之间在验证数据集val上的损失

用于计算基准网络αbase与教师模型对应区块的真

实特征图Yj之间在验证数据集val上的损失

表示与当前区块Xj中筛选出来的子网络架构 相关的成本计算函数,

表示从第j个区块的架构搜索空间Aj中选择成本 最小的架

构 适应度函数 为选定的架构 的计算成本 的负值;

步骤4.2.3,在预测评估阶段的第一代,即G=Ng时,使用步骤4.2.2中得到的历史记录字典History来训练一个多层感知器MLP作为得分预测器M,父代种群需要使用得分预测器M重新评估一次;在G>Ng时,直接使用训练好的得分预测器M对种群中的所有有效个体进行评分。

4.根据权利要求3所述的方法,其特征在于,步骤10中,利用步骤9中重训练好的子网来预测当前数据中的噪声成分,并将噪声成分移除,逐步得到更接近真实数据分布的表示,然后使用变分自编码器VAE中的解码器D将去除噪声后得到的潜在表示映射回像素空间,最终输出生成的图像样本,完成轻量级潜在扩散模型的图像生成任务。

5.根据权利要求1~4任一项所述的方法实现的系统,其特征在于,包括:

基于知识蒸馏的学生超网训练模块:用于训练一个学生模型;

基于得分预测器的演化神经架构搜索模块:用于训练一个多层感知器MLP,作为评估架构性能的得分预测器;

基于动态联合损失函数的重训练模块:用于对架构搜索过程中得到的子网进行重训练;采用一种将蒸馏损失和噪声预测损失结合起来的动态联合损失函数,调整不同损失函数的权重。