买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于渐进式去噪引导的人脸图像身份合成方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于渐进式去噪引导的人脸图像身份合成方法

￥24000

专利号： 2023102182836

申请人：山东省人工智能研究院

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于渐进式去噪引导的人脸图像身份合成方法，其特征在于，包括如下步骤：

a)对源视频Vs进行提取，提取出图像帧Xs，对目标视频Vt进行提取，提取出图像帧Xt；

b)对图像帧Xs和图像帧Xt进行人脸检测并对齐，得到对齐后的源图像帧Xs和目标图像帧Xt；

c)建立身份编码器Eid，将源图像帧Xs输入到身份编码器Eid中提取出源图像帧Xs中的身份特征Fs；

d)建立渐进式身份去噪引导模型GID，将身份特征Fs、目标图像帧Xt及时间嵌入噪声Ttemb输入到渐进式身份去噪引导模型GID中，输出得到噪声图像Xnoise,时间嵌入噪声Ttemb为符合N(0,1)的高斯噪声；

e)利用损失函数迭代渐进式身份去噪引导模型GID，得到训练后的渐进式身份去噪引导模型GID；

f)将训练后的渐进式身份去噪引导模型GID输出的噪声图像Xnoise作为具有源图像帧Xs和目标图像帧Xt属性的人脸图像Xfake；

步骤d)包括如下步骤：

d‑1)渐进式身份去噪引导模型GID由第一卷积层、第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络、中间自注意力模块、第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络、第二卷积层构成,第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成，中间自注意力模块由第一身份融合瓶颈残差块、第二身份融合瓶颈残差块、自注意力机制构成，第一身份融合瓶颈残差块及第二身份融合瓶颈残差块均依次由第一BatchNorm归一化层、第一ReLU激活层、第二BatchNorm归一化层、第二ReLU激活层、卷积层构成，第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络均依次由第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层、第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层构成；

d‑2)将目标图像帧Xt输入到渐进式身份去噪引导模型GID的第一卷积层中，输出得到目标图像帧特征Ft；

d‑3)将目标图像帧特征Ft依次输入到渐进式身份去噪引导模型GID的第一身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将时间嵌入噪声Ttemb进行非线性归一化操作，将身份特征Fs与非线性归一化后的时间嵌入噪声Ttemb相加得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征d‑4)将目标图像帧特征依次输入到渐进式身份去噪引导模型GID的第二身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑5)将目标图像帧特征依次输入到渐进式身份去噪引导模型GID的第三身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第三BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑6)将目标图像帧特征依次输入到渐进式身份去噪引导模型GID的第四身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第四BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑7)将目标图像帧特征依次输入到渐进式身份去噪引导模型GID的第五身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第五BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑8)将目标图像帧特征依次输入到渐进式身份去噪引导模型GID的第六身份融合下采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、下采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合下采样残差网络的第六BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑

9)将特征依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征将特征与特征相加得到特征将特征依次输入到中间自注意力模块的第一身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征d‑10)将特征依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第一BatchNorm归一化层、第一ReLU激活层中，输出得到特征将特征与特征相加得到特征将特征依次输入到中间自注意力模块的第二身份融合瓶颈残差块的第二BatchNorm归一化层、第二ReLU激活层、卷积层中，输出得到特征d‑11)将特征输入到中间自注意力模块的自注意力机制中，输出得到特征Fmid；

d‑12)将特征Fmid依次输入到渐进式身份去噪引导模型GID的第一身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第一身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑13)将特征依次输入到渐进式身份去噪引导模型GID的第二身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第二身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑14)将特征依次输入到渐进式身份去噪引导模型GID的第三身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第三身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑15)将特征依次输入到渐进式身份去噪引导模型GID的第四身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第四身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑16)将特征依次输入到渐进式身份去噪引导模型GID的第五身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第五身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征 d‑17)将特征依次输入到渐进式身份去噪引导模型GID的第六身份融合上采样残差网络的第一BatchNorm归一化层、第一ReLU激活层、上采样层、第一卷积层中，输出得到特征将特征与特征相加得到特征将特征依次输入到第六身份融合上采样残差网络的第二BatchNorm归一化层、第二ReLU激活层、Dropout层、第二卷积层中，输出得到特征d‑18)将特征输入到渐进式身份去噪引导模型GID的第二卷积层中，输出得到噪声图像Xnoise。

2.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：

步骤a)中利用opencv图像处理算法读取源视频Vs和目标视频Vt，分别提取得到图像帧Xs及图像帧Xt。

3.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：

步骤b)中利用MTCNN算法对图像帧Xs及图像帧Xt进行人脸检测并对齐。

4.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于，步骤c)包括如下步骤：

c‑1)身份编码器Eid由第一卷积层、第一下采样残差块、第二下采样残差块、第三下采样残差块、瓶颈残差块、第二卷积层构成，第一下采样残差块、第二下采样残差块、第三下采样残差块均由第一分支和第二分支构成，第一下采样残差块、第二下采样残差块、第三下采样残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成，第一下采样残差块、第二下采样残差块、第三下采样残差块的第二分支均依次由卷积层、池化层构成，瓶颈残差块由第一分支和第二分支构成，瓶颈残差块的第一分支均依次由BatchNorm2d归一化层、LeakyReLU激活层、卷积层、池化层构成，瓶颈残差块的第二分支依次由卷积层、池化层构成；

c‑2)将源图像帧Xs输入到身份编码器Eid的第一卷积层中，输出得到特征c‑3)将特征输入到身份编码器Eid的第一下采样残差块的第一分支中，输出得到特征将特征输入到身份编码器Eid的第一下采样残差块的第二分支中，输出得到特征将特征与特征相加得到混合特征c‑4)将混合特征输入到身份编码器Eid的第二下采样残差块的第一分支中，输出得到特征将混合特征输入到身份编码器Eid的第二下采样残差块的第二分支中，输出得到特征将特征与特征相加得到混合特征c‑5)将混合特征输入到身份编码器Eid的第三下采样残差块的第一分支中，输出得到特征将混合特征输入到身份编码器Eid的第三下采样残差块的第二分支中，输出得到特征将特征与特征相加得到混合特征c‑6)将混合特征输入到身份编码器Eid的瓶颈残差块的第一分支中，输出得到特征将混合特征输入到身份编码器Eid的瓶颈残差块的第二分支中，输出得到特征将特征与特征相加得到混合特征 c‑7)将混合特征输入到身份编码器Eid的第二卷积层中，输出得到身份特征Fs。

5.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：

步骤c‑1)中第一卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c‑1)中第二卷积层的卷积核大小为4×4，步长为1，填充为0；步骤c‑1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c‑

1)中第一下采样残差块、第二下采样残差块、第三下采样残差块中的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0；步骤c‑1)中瓶颈残差块的第一分支的卷积层的卷积核大小为3×3，步长为1，填充为1；步骤c‑1)中瓶颈残差块的第二分支的卷积层的卷积核大小为1×1，步长为1，填充为0。

6.根据权利要求1所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于：

步骤d‑1)中渐进式身份去噪引导模型GID的第一卷积层及第二卷积层的卷积核大小均为3×

3，步长均为1，填充均为1；步骤d‑1)中第一身份融合下采样残差网络、第二身份融合下采样残差网络、第三身份融合下采样残差网络、第四身份融合下采样残差网络、第五身份融合下采样残差网络、第六身份融合下采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d‑1)中第一身份融合瓶颈残差块及第二身份融合瓶颈残差块的卷积层的卷积核大小均为3×3，步长均为1，填充均为1；步骤d‑1)中第一身份融合上采样残差网络、第二身份融合上采样残差网络、第三身份融合上采样残差网络、第四身份融合上采样残差网络、第五身份融合上采样残差网络、第六身份融合上采样残差网络的第一卷积层及第二卷积层的卷积核大小均为3×3，步长均为1，填充均为1。

7.根据权利要求4所述的基于渐进式去噪引导的人脸图像身份合成方法，其特征在于，步骤e)包括如下步骤：

e‑1)将噪声图像Xnoise和目标图像帧Xt输入到DDPM模型的噪声计算网络中，得到丢失噪声εr；

e‑2)将噪声图像Xnoise替代步骤d‑2)中的目标图像帧Xt后重复执行步骤d‑2)至步骤d‑

18)后得到的噪声图像Xnoise，将噪声图像Xnoise替代步骤c‑2)中的源图像帧Xs后重复执行步骤c‑2)至步骤c‑7)后得到身份特征Fs作为噪声图像特征Fnoise；

e‑3)将噪声图像Xnoise输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征将目标图像帧Xt输入到3DMM算法中的3D形状引导模型中提取得到3D形状特征e‑4)通过公式Lidentity＝1‑cos(Fs,Fnoise)计算得到身份丢失损失Lidentity；

e‑5)通过公式计算得到3D形状丢失损失L3D，式中||·||2为L2范数；

e‑6)通过公式计算得到噪声损失Lnoise，式中ε为高斯噪声；

e‑7)通过反向传播法利用身份丢失损失Lidentity、3D形状丢失损失L3D、噪声损失Lnoise迭代渐进式身份去噪引导模型GID至500epochs，得到训练后的渐进式身份去噪引导模型GID。