买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多域视觉语言重建的扩散伪造人脸检测和定位方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多域视觉语言重建的扩散伪造人脸检测和定位方法

￥25200

专利号： 202411707611X

申请人：齐鲁工业大学(山东省科学院)

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-22

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，包括以下步骤：S1、构建分层细粒度人脸数据集，数据集中包含若干张人脸图像，每张人脸图像有对应的细粒度类感知文本和真实掩模图像，对人脸图像、对应的细粒度类感知文本和真实掩模图像分别进行预处理，得到预处理后的人脸图像、对应的细粒度类感知文本张量和真实掩膜图像张量；

S2、利用多域视觉编码器模块分别得到人脸图像局部特征与视觉操纵特征；

S3、将多域视觉编码器模块提取的人脸的局部图像特征分别输入至视觉解码器模块和掩膜解码器模块中，分别得到预测人脸外观图像与预测掩膜图像；

S4、在细粒度类感知文本张量加入位置信息后输入至语言编码器中，在细粒度类感知文本张量的基础上得到新的细粒度类感知文本张量后计入位置信息，再输入至语言解码器中，得到该文本的细粒度类语言特征、细粒度源语言特征与预测的目标语言特征，从细粒度源语言特征中取最后一个文本片段得到细粒度类语言特征；

S5、将步骤S2得到的视觉操纵特征分别输入到适应器与多层感知机中，分别得到预测语言特征和预测图像类别特征；

S6、将步骤S3得到的预测人脸外观图像与人脸图像的张量利用外观重建损失函数优化，将步骤S3得到的预测掩膜图像与真实掩膜图像的张量利用操纵定位损失函数优化，将步骤S4得到的细粒度类语言特征与步骤S2得到的视觉操纵特征和步骤S5得到的预测语言特征分别利用跨模态对比损失函数与散度损失函数优化，将S5得到的预测图像类别特征与真实图像标签利用操纵检测损失函数优化，将文本的预测标签向量与文本中单词的真实标签利用语言重建损失函数优化，对适应器和多层感知机的训练，得到多域细粒度视觉语言重建模型；

其中，文本的预测标签向量的计算公式如下：，

其中，表示词汇表，，表示词汇个数，表示维数；

S7、利用训练好的模型中的多域视觉编码器与视觉解码器及多层感知机对人脸图像进行二分类真假检测，并生成预测掩模图像来对操纵定位。

2.根据权利要求1所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S1具体如下：S1.1、将分层细粒度人脸数据集里的每张人脸图像的宽×高调整，利用均值为[0.4718,0.3467,0.3154]、方差为 [0.1656,0.1432,0.1364]的维度对人脸图像进行归一化，两组数据中三个数值分别对应人脸图像的RGB通道中红色、绿色、蓝色通道的均值和方差，将归一化后的人脸图像封装为的张量，表示向量空间，表示分层细粒度人脸数据集中任意一张人脸图像的张量，3表示人脸图像张量的通道数为3，人脸图像对应的标签记作或，表示每批次图像的个数，0表示真图像，1表示假图像；

S1.2、通过分词器对人脸图像对应的细粒度类感知文本进行处理，得到词标记序列，并利用词嵌入层将词标记映射为细粒度类感知文本张量，表示每批次文本的个数，表示词标记的个数，表示词嵌入的特征维度；

S1.3、将真实掩膜图像封装为的张量，表示每批次图像的个数。

3.根据权利要求2所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S2具体如下：S2.1、构建多域视觉编码器模块，多域视觉编码器模块包括一个编码器和一个图像编码器，其中图像编码器由个连续的模块组成，每个模块由多头自注意力模块和模块组成，多头自注意力模块和模块的上一层均为层，下一层均为残差层；

S2.2、将人脸图像的张量输入至多域视觉编码器模块，首先经过编码器，输出维度为的人脸图像局部特征图，具体过程如下：，

其中，，表示编码器的参数, 表示人脸图像局部特征图的通道数，表示人脸图像局部特征图的高，表示人脸图像局部特征图的宽；

S2.3、将人脸图像局部特征图沿着通道利用库里的重塑函数拉平为二维图像块序列，，表示补丁的数量， , 表示第个二维图像块, 表示二维图像块大小；

计算带有位置信息的二维图像块序列，具体计算如下：，

其中，表示自动生成的可学习的类张量，表示映射隐向量，，表示映射隐向量维度，维度等于维数，，表示第个二维图像块的映射隐向量，表示自动生成的二维图像块序列的位置，；

S2.4、将输入至图像编码器中，首先经过第一层模块，在第一层模块中依次经过多头自注意力模块和模块，最后第一层模块输出，表示第一层的二维空间特征图，具体过程如下：首先经过归一化操作后被输入至第一层多头自注意力模块进行全局多头注意力计算，再经过残差层得到二维全局空间特征，将再进行归一化操作后输入至第一层模块，再经过残差层后，最终得到第一层模块的输出，计算过程如下：，

，

其中，表示归一化层的操作，表示多头自注意力模块的操作，表示模块的操作；

然后将第一层模块的输出作为第二层模块的输入，将第二层模块的输出作为第三层模块的输入，多次迭代后直至得到第层模块的输出，表示第层的二维空间特征图；

S2.5、将输入视觉解码器模块得到预测人脸外观图像，计算过程如下：，

其中，表示预测人脸外观图像，，表示视觉解码器模块的操作，表示视觉解码器模块的参数；

再通过残差生成模块得到残差图像，计算过程如下：，

其中，表示残差图像，表示张量，；

S2.6、建立与图像编码器结构相同且参数共享的残差编码器，将残差图像输入残差编码器得到全局残差图像特征，计算过程如下：，

其中，表示全局残差图像特征，，表示残差编码器的参数；

将和进行融合再经过操作得到视觉操纵特征，具体过程如下：,

其中，，表示重塑操作。

4.根据权利要求3所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S3具体如下：S3.1、构建一个视觉解码器模块，视觉解码器模块包括解码器和外观重建层，外观重建层包括一个卷积上采样层；构建一个掩膜解码器模块，掩膜解码器模块包括解码器和操纵定位层，操纵定位层由一个卷积上采样层构成，视觉解码器模块和掩膜解码器模块中的解码器共享权重；

S3.2、将输入视觉解码器模块得到预测人脸外观图像，，将输入掩膜解码器模块得到预测掩膜图像，计算过程如下：，

其中，，为检测类别数，表示掩膜解码器模块的操作。

5.根据权利要求4所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S4具体如下：S4.1、根据细粒度类感知文本张量和自动生成的细粒度类感知文本张量的位置得到带有位置信息的细粒度类感知文本序列向量，计算过程如下：；

S4.2、构建语言编码器，语言编码器包括个连续的模块，每个模块包括多头注意力模块、视觉注入模块和前馈神经网络模块，其中多头注意力模块、视觉注入模块和模块的上一层均为层，下一层均为残差层；

S4.3、将带有位置信息的细粒度类感知文本序列向量输入至语言编码器中，首先经过归一化操作后被输入至第一层多头注意力模块进行全局多头注意力计算，再经过残差层得到文本全局语义特征，计算过程如下：，

其中，表示归一化操作，表示多头注意力模块的操作；

再将进行归一化操作后与视觉操纵特征输入至视觉注意力模块，再经过残差层通过交叉注意力计算得到全局视觉语言特征，具体过程如下：将输入至查询线性层得到查询张量，计算过程如下：，

其中，，表示第一层多头注意力模块中查询线性层参数；

将视觉操纵特征输入至键映射层得到键张量，计算过程如下：，

其中，，表示第一层多头注意力模块中键映射层参数；

再将输入至值映射层得到值张量，计算过程如下：，

其中，，表示第一层多头注意力模块中值映射层参数；

再通过交叉注意力计算得到全局视觉语言特征，计算过程如下：，

其中，表示函数的操作，；

再将进行层归一化后输入至模块中，再经过残差模块得到精炼的全局视觉语言融合特征，计算过程如下：；

然后将语言编码器第一层模块的输出作为第一层模块的输入，将第二层模块的输出作为第三层模块的输入，多次迭代直至得到第层模块的输出，语言编码器的最终输出即为细粒度源语言特征，从细粒度源语言特征中取最后一个文本片段得到细粒度类语言特征；

S4.4、在细粒度类感知文本张量的开始附上一个并移除最后一个得到新的细粒度类感知文本张量，通过和的位置得到带有位置信息的细粒度类感知目标文本序列向量，计算过程如下：；

S4.5、构建语言解码器，语言解码器由个连续的模块组成，每个模块包括掩膜多头注意力模块、多头注意力模块、视觉注入模块和模块，掩膜多头注意力模块、多头注意力模块、视觉注入模块和模块的上一层均为层，下一层均为残差层；

S4.6、将带有位置信息的细粒度类感知目标文本序列向量输入至语言解码器中，首先经过归一化操作后被输入至第一层掩膜多头注意力模块，再经过残差层得到目标文本语义特征，计算过程如下：，

其中，表示归一化操作，表示掩膜多头注意力模块的操作；

再将进行归一化操作后与一同输入至多头注意力模块进行交叉注意力计算，再经过残差层得到与源目标融合语义特征，计算过程如下：，

其中，表示多头注意力模块的操作；

将进行归一化操作后与视觉操纵特征输入至视觉注入模块，再经过残差层得到全局视觉语言融合特征，计算过程如下：，

其中，表示视觉注入模块的操作；

将进行归一化操作后输入至模块，再经过残差层得到精炼的全局视觉语言融合特征，计算过程如下：，

其中，表示模块的操作；

然后将语言解码器第一层模块的输出作为第二层模块的输入，将第二层模块的输出作为第三层模块的输入，多次迭代后直至得到第层模块的输出，语言解码器的最终输出即为预测的目标语言特征。

6.根据权利要求5所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S5具体如下：将输入至一个由全连接层组成的适应器，得到预测语言特征，计算过程如下：，

其中，，表示适应器参数，；

再将输入至一个由全连接层组成的多层感知机，得到预测图像类别特征，计算过程如下：，

其中，，表示多层感知机参数，。

7.根据权利要求6所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S6具体如下：S6.1、总损失函数：

，

；

，

；

其中，表示转置，表示外观重建损失函数，表示预测人脸外观图像，表示图像数量的索引，表示操纵定位损失函数，表示预测掩膜图像，表示真实掩膜图像的张量，表示跨模态对比损失函数，表示细粒度类语言特征，表示第个图像视觉特征与第个图像文本语言特征的相似性得分，表示第个图像文本语言特征与第个图像视觉特征的相似性得分，表示视觉到语言的对比损失函数，表示语言到视觉的对比损失函数，表示图像数量的索引，表示样本对one‑hot标签，表示余弦相似函数，表示可训练的温度参数，表示散度损失函数，表示语言重建损失函数，表示词标记个数的索引，表示文本的预测标签向量，表示第个图像文本的第个单词的预测标签向量，表示第个图像文本的第个单词的的真实one‑hot标签，表示第个图像的真实one‑hot标签，表示第个图像预测图像类别特征，表示操纵检测损失函数，表示真实图像 t标签；

S6.2、利用Adam优化器优化总损失函数，完成对适应器和多层感知机的训练，得到多域细粒度视觉语言重建模型。

8.根据权利要求7所述的基于多域视觉语言重建的扩散伪造人脸检测和定位方法，其特征是，S7具体如下：将张量输入多域细粒度视觉语言重建模型的视觉编码器分别得到局部图像特征，再通过视觉解码器模块计算得到残差图像，计算过程如下：，

再将与输入至多域视觉编码器，通过多层感知机计算得到最终的预测图像真假类别，计算过程如下：，

最后通过计算得到最终的预测掩膜图像，计算过程如下：，

其中，表示视觉编码器，表示视觉解码器模块的操作，表示多层感知机。