买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于Transformer与生成对抗网络的图像着色方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于Transformer与生成对抗网络的图像着色方法

￥42000

专利号： 2022112471255

申请人：西安工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-29

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于Transformer与生成对抗网络的图像着色方法，其特征在于，该方法按照以下步骤实施，步骤1、构建基于生成对抗网络的图像着色模型，所述图像着色模型包括彩色图像生成器和鉴别器；所述彩色图像生成器用于生成彩色图像，所述鉴别器用于判断输入的图像是真实彩色图像或伪彩色图像；

步骤1中，所述彩色图像生成器中包含多个MWin‑transformer模块，所述Mwin‑transformer模块的功能是提取和重建图像的特征，输出3通道有效彩色图像：所述Mwin‑transformer模块由三个核心部分组成：基于窗口的多头自注意力机制、层归一化操作LN和局部增强前向传播网络LeFF；

步骤2、将灰色图像输入所述图像着色模型的彩色图像生成器生成伪彩色图像；

所述彩色图像生成器生成伪彩色图像的流程如下所示：

X′＝Embedded Tokens(Xin)

X″＝W‑MSA(LN(X′))+X′

Xout＝LeFF(LN(X″))+X″

其中，Xin表示输入，为灰色图像或伪彩色图像；

Embedding Tokens表示将Xin转换成向量；

X′表示将Xin输入进Embedding Tokens得到的向量输出；

然后将向量X′进行层归一化后的结果LN(X′)输入进基于窗口的多头自注意力机制W‑MSA得到提取了特征信息的向量，再与X′相加得到汇聚了更多特征信息的向量X″；X″表示将X′输入进基于窗口的多头自注意力机制以及层归一化操作得到的输出；

继续将向量X″进行层归一化，将归一化后的LN(X″)输入进局部增强前向传播网络得到提取了更多局部特征信息的向量，再与X″相加得到汇聚了更多局部特征信息的向量Xout，Xout表示将X″输入进局部增强前向传播网络LeFF以及层归一化操作得到的输出；

步骤3、分别更新鉴别器以及彩色图像生成器的参数：

步骤3.1：首先固定彩色图像生成器的参数，将所述伪彩色图像以及所述灰色图像对应的真实彩色图像依次交替输入鉴别器，然后根据损失函数计算所述灰色图像对应的真实彩色图像与标签值为1之间的损失，以及根据损失函数计算所述灰色图像生成的伪彩色图像与标签值为0之间的损失，最后利用反向传播算法，更新所述鉴别器的参数；其中标签值为1代表的是真实的图像，标签值为0代表的是生成的伪彩色图像；

步骤3.2：固定鉴别器的参数，根据损失函数计算生成的伪彩色图像与标签值为1之间的损失，最后利用反向传播算法，更新所述彩色图像生成器的参数；

步骤3.3：不断循环步骤3.1和步骤3.2更新鉴别器和彩色图像生成器参数的过程，直至损失值收敛，彩色图像生成器生成效果不错的伪彩色图像，即获得了优化后图像着色模型；

步骤4、利用优化后的图像着色模型就直接对灰色图像进行着色。

2.根据权利要求1所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述层归一化操作的计算过程为:其中，LN层的作用对象是 X代表向量，μ以及δ分别代表每个样本的均值和方差，和为仿射学习参数，dk是隐藏维度，表示该数是一个k维的向量。

3.根据权利要求1所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述基于窗口的多头自注意力机制如下：将伪彩色图像分成多个窗口，然后在这些不同的窗口中执行自注意力计算，由于一个窗口中的patch数远小于一幅图片中的所有小块数，并且窗口的数目保持不变，所以基于窗口的多头自注意力机制的计算复杂度与图像大小便由平方关系变成了成线性关系，大大降低了模型的计算复杂度。

4.根据权利要求1所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，将卷积添加到Mwin‑transformer模块中的前向传播网络，从而形成局部增强前向传播网络LeFF。

5.根据权利要求1所述的基于Transformer与生成对抗网络的图像着色方法，其特征在于，所述损失函数为：其中，

其中，G 表示损失函数之和，表示条件生成对抗网络损失，表示Charbonnier损失，λ表示Charbonnier损失的权重系数；

x表示输入的灰色图像；

y表述输入的灰色图像对应的真实的彩色图像；

log表示以2为底的对数函数；

表示自变量为x,y；

表示自变量为x；

‑3

ε表示一个值为10 的常系数；

|| ||表示求绝对值。