1.一种基于Transformer的人脸图像超分辨的方法,其特征在于,具体包括以下步骤:S1:数据预处理;首先将原始高分辨率RGB人脸图像通过Bicubic方法下采样得到低分辨率数据x;然后将x均匀切割成N个固定大小的图像块 ;
S2: 构建CNN特征提取器,得到图像块的特征图,每一个块的输出特征是三维的张量,大小是 ;为了能够被输入到transformer中,在空间维度上展开为 ;
S3:根据每个图像块的位置索引,生成块级别上的可学习的位置编码c,其长度与 相同,并被对应添加到 中,记作嵌入向量 ,以保留图像块的位置信息;
S4:将嵌入向量 作为输入序列馈入标准TransformerEncoder模块,编码器使用多个自注意力块来组合不同Embedding之间的特征;
S5:构造超分辨解码器,首先把transformer的encoder模块的输出和特征提取器的输出 组合起来,作为超分辨解码器的输入,然后使用残差块和卷积层对特征进行解码,得到最终的超分辨图像。
2.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S1中,具体包括以下步骤:S1‑1:构造高分辨率和低分辨率的人脸图像对,建立公式(1)如下: (1),
其中 表示高分辨率人脸图像,表示对应的低分辨率图像, Bicubic插值算法;
S1‑2:将RGB图像 切割成N个固定大小的图像块 ;其中 , ,则 。
3.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S2中,具体包括以下步骤:S2‑1:构建图像特征提取器 ,其第一部分由卷积层、批标准化(batch normalization)和ReLu操作组成,第二部分包括3个ResidualBlock;
S2‑2:将图像块序列同步送入特征提取器 ,对应生成N个特征图 ,=1,…,N,其中 表示网络通道数, 表示输出特征图的大小,, =1,…,N (2);
S2‑3:为了使图像的二维表示能够被输入到transformer的encoder模块中去,对特征图进行展平操作,记作 。
4.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S3中,具体包括以下步骤:S3‑1:使用原始的一维位置嵌入方法,将每个图像块的位置根据公式(3)(4)产生位置嵌入c :
(3)
(4)
其中, 是指图像块在原始图像中的位置,取值范围是[0,N];表示特征图中的像素位置,即奇数位置的时候采用公式(3),反之使用公式(4);
S3‑2:将可学习的位置嵌入c与图像块的嵌入向量 结合,形成具备位置信息的嵌入向量 ,即
c+ (5)。
5.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S4中,具体包括以下步骤:S4‑1:使用标准的TransformerEncoder架构,由一个多头自注意力模块(Multi‑head self‑attention)和一个前馈网络层(MLP)组成,并且在每个块之前都应用LayerNorm操作,在每个块之后都应用残差连接,其具体过程如下: (6)
(7)
(8)
(9)
(10)
其中,公式(6)(7)表示了自注意力操作的过程, ,表示线性映射的权重, 表示对嵌入向量 做线性映射;最后输出 。
6.根据权利要求1所述的一种基于Transformer的人脸图像超分辨的方法,其特征在于,所述步骤S5中,具体包括以下步骤:S5‑1:将TransformerEncoder模块提取的全局信息与特征提取器所提取的局部特征组合起来,作为图像超分辨率解码器的输入,公式如下: (11)
其中 表示级联操作;
S5‑2:构造超分辨率解码器,首先通过标准的3×3的卷积‑批标准化‑ReLu流程来减少输入特征图的数量,接下来利用反卷积操作将特征图上采样到大小为128×128;然后设计3个与超分辨编码器相同的residualblock对特征进行解码;最后用一个卷积层来输出超分辨的结果。