利索能及
我要发布
收藏
专利号: 2021106178192
申请人: 韶鼎人工智能科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多任务生成对抗网络的灰度图像着色方法,其特征在于,包括如下步骤:

步骤1、收集清晰的影视材料,建立数据集;所述影视材料包括电视剧,电影和纪录片;

对所述影视材料进行切帧为图像,再对所述图像进行预处理以及对图像进行分类,根据年代,国家和服装类型将图像分类为42类标签,便于多任务生成对抗网络对图像进行分类,达到准确着色;通过预处理后最终得到图像数量大于1.3M,包含42类标签的数据集并命名为现代历史影像数据集Modern History Movie Dataset,MHMD;

步骤2、设计多任务生成对抗网络,在包含有历史军装图像的现代历史影像数据集上对多任务生成对抗网络进行训练,实现对人物的准确着色;

所述多任务生成对抗网络中包含生成器和辨别器,将灰度图像输入到生成器中后,生成器生成着色后的图像传输到辨别器中进行辨别着色效果然后将信息反馈给生成器,指导生成器更好的生成着色图像;所述生成器中分为人物解析网络、分类网络和主着色网络;人物解析网络对输入的图像进行解析,将人物的各个部位进行分割并将人物和背景分割开,使得主着色网络能够对各个部分准确着色,避免边界颜色的溢出;分类网络将图像分类为

42类标签中的一种,指导主着色网络选择正确的颜色进行搭配着色;主着色网络采用U‑Net的方式融合人物解析网络和分类网络获取的输入图像的特征,实现更加自然准确的着色和颜色修复;

所述辨别器包括分辨网络,所述分辨网络基于InfoGAN进行设计,InfoGAN能够很好地获取图像的Info信息和展示其浅层信息,即细节信息,通过分辨网络获得的256维向量和分类网络获得的256维向量之间建立损失函数约束图像分类更加准确并且能够补充图像浅层信息,以达到更好的着色效果;

步骤3、训练多任务生成对抗网络,将设计的多任务生成对抗网络在现代历史影像数据集上进行训练,得到完整的着色模型,利用此着色模型测试灰度图像的着色效果;

步骤4、使用Human Parsing技术对步骤3中的多任务生成对抗网络进行改进,使得人物解析网络能够实现细粒度的人物解析,达到对人物的各个部位,包括手、服装和头发的分割,并且分割开人物和背景;

步骤5、生成灰度图像的着色图像,得到最终着色效果图,通过使用Human Parsing技术对网络结构进行改进,获得人物各个部分准确地边界,着色的时候对各个部分着色准确和完整并且避免边界颜色溢出;

所述步骤(3)中,多任务生成对抗网络的设计如下:

(3.1)输入灰度图映射到CIE颜色系统的Lab空间,其中Lab含义为L表示Light颜色亮度,a表示红色、品红色和绿色之间的位置,b表示黄色和蓝色之间的位置,通过VGG‑16网络的前

10层,VGG‑16提前在Image‑Net数据上进行训练,然后通过人物解析网络、分类网络和主着色网络得到预测的着色图像,然后根据生成对抗网络的特点,生成的预测图像再经过辨别器判断效果并将信息反馈给生成器从而进行调整,最终达到最佳的着色效果;

多任务生成对抗网络总损失函数为:

为主着色网络损失; 为分类网络损失; 为人物解析网络损失;

为分辨网络损失; 为辨别器损失;

(3.2)生成器最终生成一个(a,b)通道的图像,生成器损失函数为:

其中,(L,ar,br)是在Lab空间上生成的预测的彩色图;L为输入的灰度图像,ar为预测的彩色图在红色或品红色和绿色之间的颜色位置,br为预测的彩色图像在黄色和蓝色之间的颜色位置;Pr是彩色图像的分布;||·||2为欧式距离;通过计算生成器生成的图像 和预测的图像(ar,br)之间的欧式距离使得结果图像能够更接近于原始图像;

(3.3)人物解析网络使用Deeplab‑v3技术生成的图像并用手工调整作为此网络的Ground Truth真值指导此网络对图像进行分割,其损失函数为:其中,(S,ar,br)中S是人物解析前的图像;(ar,br)是生成的人物解析图像;计算生成的人物解析图像和解析前图像的欧式距离并使其最小化,使得人物解析网络能够更加准确的进行图像中人物的解析,分割出人物各个部位的边界;

(3.4)分类网络通过卷积和全连接一方面将分类信息传递到主着色网络中,另一方面预测出图像的标签,即分类网络获得的42维向量对应数据集中分类的42类标签;传递到主着色网络的256维向量和辨别器中的分辨网络获得的256维向量共同约束分类网络损失,使得分类更加准确最终使主着色网络使用更正确的颜色进行着色;分类网络的损失函数为:m

Prg表示输入的灰度图像的分布;yv∈R 为VGG网络分类数据集中的图像获得的分类标签;计算yv和 之间的KL散度使得 更加拟合VGG网络分类的标签,使得分类网络能够更加准确的分类;

(3.5)利用InfoGAN能够更好表达图像的浅层信息的特点,引入InfoGAN作为分辨网络计算分辨网络获得的图像info信息,其损失函数为:计算生成图像 和infoGAN之间的KL散度,使得生成的图像尽可能拟合获得的info信息从而生成的图像能够更好地表现出图像的浅层信息;

(3.6)采用WGAN和PatchGAN设计辨别器的损失,其中WGAN使用Earth‑Mover距离来计算损失以使损失最小化,并且WGAN避免训练过程中梯度消失和崩溃,使得整个训练过程更加稳定;同时,梯度惩罚中加入Kantorovich‑Rubinstein惩罚,最终辨别器损失函数为:其中, 为 生成的图像的分布模型, 是沿着数据分布Pr和生成器的分布之间对点之间的直线均匀采样; 为计算彩色图像的辨别器损失值;

为辨别器计算生成器生成的彩色图像的损失;

为Kantorovich‑Rubinstein惩罚;

(3.7)多任务生成对抗网络在设计的数据集的1.3M数据上进行训练,一共训练8轮,每训练一轮需要28个小时;使用Adam优化器最小化多任务生成对抗网络总损失函数,并使用动量优化;

输入的灰度图像经过VGG‑16的前10层获得图像特征后,分别将图像特征输入到分类网络和人物解析网络进行损失函数的计算,同时,主着色网络融合人物解析网络和分类网络的信息并进行损失函数的计算,然后生成器部分获得(a,b)通道的图像;接着进入到辨别器中的分辨网络,设计并计算分辨网络和分类网络获得的向量之间的损失函数从而约束分类网络更加准确地对图像进行分类,最后再计算整个辨别器的损失函数并将信息反馈到生成器使得整个多任务生成对抗网络能够更好的生成着色图像;

所述步骤(4)中,使用Human Parsing对多任务生成对抗网络进行改进如下:(4.1)将人物解析部分的Deeplab‑v3生成分割图像改为使用Human Parsing技术生成分割图像;

(4.2)然后手动调整Human Parsing生成的分割图像作为人物解析网络的真值。

2.根据权利要求1所述的一种基于多任务生成对抗网络的灰度图像着色方法,其特征在于:所述步骤(1)具体实现如下:(1.1)对收集到的彩色影像材料进行切帧为图像后进行预处理操作,删除灰度图像、人物过多和无人的图像;

(1.2)对预处理后的图像进行分类,根据图像的内容所表现的年代,国家和服装类型将图像分类为42类标签;

(1.3)随机选择图像总数的1%的图像进行手动标签,将标记的1%的图像输入到分类网络ResNet中进行训练以分类所有的图像;

(1.4)对分类错误的图像进行细微调整;

最终得到大于等于1.3M大小的现代历史影像数据集,Modern History  Movie Dataset,MHMD。

3.根据权利要求1所述的一种基于多任务生成对抗网络的灰度图像着色方法,其特征在于:所述步骤(2)中,多任务生成对抗网络的实现包括:步骤(2.1)输入灰度图像;通过VGG‑16网络的前10层获取灰度图像的特征;

步骤(2.2)将提取了特征的灰度图像输入到人物解析网络中,人物解析网络采用不断卷积和上采样的方式计算图像的特征,再以Deeplab‑v3技术生成分割图像,并将手工调整后的图像作为真值Ground Truth;基于U‑Net的方式将人物解析网络的卷积信息融合到主着色网络中;

步骤(2.3)将提取了特征的灰度图像同样也输入到分类网络中,分类网络分为两个小的分支,一个分支将图像分类信息传递到主着色网络中指导主着色网络根据类别进行着色;另一分支输出预测的输入图像为42类标签中哪一类标签;

步骤(2.4)主着色网络采用卷积和上采样并融入分类信息以及人物解析信息得到;

步骤(2.5)基于InfoGAN,分辨网络获得图像的Info信息从而将图像的浅层信息更好的展示;其次,分辨网络获得的256维向量和分类网络的256维向量共同约束主着色网络中的分类损失从而使得最终着色颜色更加准确;

步骤(2.6)在辨别器中引入WGAN和PatchGAN设计损失函数,引入WGAN避免训练过程中梯度消失和崩溃,PatchGAN使得辨别器能够更好的捕捉和追踪到图像的更多信息。