1.一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法,其特征在于,包括如下步骤:步骤1,在LoRA微调过程中,结合CLIP损失和感知损失,动态调整CLIP损失和感知损失的权重;
步骤2,随机采样时间步t,利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度,并根据相似度差异优化扩散模型的噪声预测能力;
步骤3,采用感知损失计算中间图像与目标图像在特征空间的差异,并优化扩散模型的噪声预测能力;
步骤4,根据训练进展调整是否启用CLIP损失和感知损失。
2.根据权利要求1所述的方法,其特征在于,步骤1中,采用稳定扩散模型作为预训练扩散模型,在训练阶段使用VAE模型将图像压缩到潜在空间中进行计算;所述VAE模型包括编码器encoder和解码器decoder,编码器用于将图像压缩到潜在空间中,解码器用于将图像大小还原;
在LoRA微调过程中,采用如下公式计算常规损失标准差:,
其中,k是滑动窗口大小;是滑动窗口内平均损失值;当常规稳定扩散模型损失在k步内标准差 小于等于阈值θ时,判定常规损失趋于稳定,此时启用CLIP损失; 表示当前时间步,t表示从 到 窗口中所有能采样到的时间步; 表示在当前采样步骤下,计算出的常规稳定扩散模型损失;
常规稳定扩散模型损失定义为:
,
其中 表示真实噪声, 表示稳定扩散模型预测噪声;N表示一个批次中的样本数量。
3.根据权利要求2所述的方法,其特征在于,步骤2中,在启用CLIP损失项后,使用预训练好的CLIP模型对图像与目标文本计算语义相似度,针对CLIP模型设计了一个损失函数以适应稳定扩散模型中不同程度的带噪图像,损失函数公式定义为:,
,
其中T表示稳定扩散模型中最大的时间步长; 表示对图像进行CLIP编码后的向量值; 表示对文本编码后的向量值; 表示CLIP损失项; 表示权重值;
步骤2.1,为了使用感知损失,对稳定扩散模型加噪过程进行修改,首先从目标微调数据集中获取目标微调图像X0,然后使用VAE模型中的编码器对微调图像X0进行压缩得到压缩后的目标微调图像 ,之后再对压缩后的目标微调图像 进行加噪t‑1步得到噪声图像xt‑1,再对当前的噪声图像xt‑1再加一步噪声得到噪声图像xt,同时保留第t步随机采样的高斯噪声 用于MSE逐像素点计算常规损失;
对当前的噪声图像xt进行常规稳定扩散模型的单步去噪,具体包括:将压缩后的目标微调图像 对应的文本text经过CLIP编码变成文本向量Ttext,然后将Ttext和噪声图像xt输入到稳定扩散模型中,稳定扩散模型会合并LoRA内部参数对噪声进行预测,得到预测出的噪声 ,然后使用 去除第t步加的噪声,获取预测后的带噪图像 ;
步骤2.2,对预测后的带噪图像 进行CLIP图像编码获得图像向量I;
步骤2.3,计算文本向量Ttext和图像向量I的语义相似度,在反向传播过程中,会根据常规损失项以及CLIP损失项进行梯度下降算法计算。
4.根据权利要求3所述的方法,其特征在于,步骤2.1包括:步骤2.1.1,随机采样一步高斯噪声 ,高斯噪声 用于第t‑1步加噪,然后使用稳定扩散模型一步加噪公式xt‑1 ,得到加噪了 步的带噪目标图像xt‑1;
其中,在稳定扩散模型中预定义好一组参数 , 指的是一组参数 中第t个值, 指的是 ;
步骤2.1.2,获取随机的高斯噪声 对当前加噪了t‑1步的带噪目标图像xt‑1再进行一次单步加噪,加噪公式为:,
得到加噪后的图像 ,同时保留高斯噪声 作为真实噪声; 指的是稳定扩散模型中预定义好的一组参数 中的第t个数据;
步骤2.1.3,使用CLIP模型对文本text进行词嵌入操作,首先将文本text拆分为独立的词或子词单元,然后通过CLIP模型的文本编码器对单元进行嵌入处理,生成与文本语义相对应的文本向量Ttext;
步骤2.1.4,将文本向量Ttext、加噪后的图像 和当前时间步t传入与LoRA结合的稳定扩散模型中,让模型预测出第t步加的噪声量 ,对图像 去除第 步噪声,使用如下公式获取到带噪图像:。
5.根据权利要求4所述的方法,其特征在于,步骤2.2包括:步骤2.2.1,在获取到带噪图像 后,在进行CLIP损失计算之前先将带噪图像 经过VAE模型的解码器将尺寸还原,得到带噪原尺寸图像 ;
步骤2.2.2,利用CLIP的图像编码器对带噪原尺寸图像 进行特征向量提取,将带噪原尺寸图像 转换为图像向量I。
6.根据权利要求5所述的方法,其特征在于,步骤2.3包括:步骤2.3.1,使用损失公式 对文本向量Ttext和图像向量I进行损失计算,其中 由T替换, 由I替换,得到的 作为文本向量和图像向量I的语义相似度;
步骤2 .3 .2,根据当前时间步t判断此时的权重设置 ,通过公式,对权重值进行调整;
步骤2.3.3,将CLIP损失引入到梯度计算图中,计算出的CLIP损失梯度会沿着优化路径反向传递以用于调整LoRA中的参数。
7.根据权利要求6所述的方法,其特征在于,步骤3包括:步骤3.1,采用一种感知损失函数对网络结果进行优化,公式为:,
,
其中 表示感知损失的总损失值, 表示每一层卷积网络对图像的特征提取, 表示动态权重项;exp是自然指数函数; 表示第k层的特征提取网络;
步骤3.2,对带噪图像 进行尺寸还原后再使用感知损失进行计算;
步骤3.3,使用感知损失 对带噪原尺寸图像 和目标微调图像X0计算感知损失,通过计算带噪原尺寸图像 和目标微调图像X0在感知模型中各层次之间的差异值来指导反向传播时调整LoRA内部参数。
8.根据权利要求7所述的方法,其特征在于,步骤3.3具体包括:步骤3.3.1,将特征提取网络VGG16进行分层,选择第0,1,2,3,4,5层卷积输出作为图像的五个特征向量;对输出特征添加线性层,进行线性变化,以设定的概率杀死神经元;特征提取网络VGG16的输入通道被调整为64,128,256,512,512;
步骤3.3.2,将原尺寸带噪目标图像 和目标微调图像X0一起输入特征提取网络VGG16中,在计算过程中,特征提取网络VGG16会保存第0,1,2,3,4,5层中的计算结果用于计算损失;
步骤3.3.3,计算原尺寸带噪目标图像 和目标微调图像X0在经过不同特征提取层后的二阶范数损失 ,并记录损失值,公式为: ,计算每一层的加权值大小并保存,最终使用公式进行总损失的求和:,
其中 表示感知损失项。
9.根据权利要求8所述的方法,其特征在于,步骤4包括:定义如下最终损失函数:,
其中, 指的是总损失值, 为CLIP损失, 为感知损失,当未达到CLIP损失启用条件时,参数 设置为0;在CLIP损失启用后,设置为1。
10.一种根据权利要求1 9任一项所述的方法实现的基于CLIP损失与感知损失的稳定~扩散模型LoRA微调优化系统,其特征在于,包括:
CLIP损失计算模块,用于:将目标微调图像对应的文本text编码获取文本向量,再对被压缩过的目标微调图像 加噪t步后,使用和LoRA合并后的稳定扩散模型预测第t步的噪声,然后减去预测噪声,获取带噪图像 ;再将带噪图像 使用VAE模型的解码器进行尺寸还原,然后使用CLIP模型对尺寸还原后的图像编码成向量,最后再使用自适应权重损失计算公式对文本向量和图像向量进行差异计算;
感知损失计算模块,用于:首先将目标微调图像X0和已经去除第t步噪声的带噪图像输入特征提取网络VGG16,指定在VGG16中的0,1,2,3,4,5层卷积上提取特征,使用自适应感知损失对上面提取到的特征进行计算;最后,将CLIP损失和感知损失与基础损失合并之后,进行反向传播,从而引导LoRA内部的参数更新。