买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于三支聚类语义分割的图像风格迁移系统及其方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于三支聚类语义分割的图像风格迁移系统及其方法

￥25200

专利号： 2021113993192

申请人：江苏科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-03-02

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于三支聚类语义分割的图像风格迁移系统，其特征在于，包括：

图像的预处理模块，用于为样本图像添加高斯噪声及扩充图像数据以应对图像风格迁移过程中出现的不均匀纹理和由于样本数据不足而导致的风格迁移效果不佳的问题；

语义分割模块，用于分别分割出内容图像与风格图像中的各语义块，为之后的风格匹配提供基本的语义信息，包括：像素值的归一化处理、使用K‑means算法求得聚类中心、核心域标签分配以及边界域标签分配；所述的像素值归一化处理，是将图像转换为标准形式以抵抗后续的仿射变换；所述的K‑means算法，是将所求聚类中心作为后续得改进的k近邻算法的初始输入；所述的改进的k近邻算法，是将三支聚类的理念引入k近邻算法中，为对核心域和判别域设置不同的判别规则，分两个步骤为样本点分配标签；其中，边界域中需要分配的点为核心域分配标签后尚未能的到标签分配的点，即将核心域未能判别的点归入边界域中；经过如上步骤即完成了样本点的聚类，进一步的即得到了语义分割图像；

特征提取模块，用于同时提取出内容图像与风格图像的低阶和高阶特征，将这些特征输入特征合成网络即可得到融合了内容特征和风格特征的图像；

风格匹配模块，用于匹配内容图像和原图像中的同类对象，从而在同类对象之间进行风格迁移；

图像相似度度量模块，用于度量系统生成的图像两两之间的相似度，筛选出相似度较低的图像作为系统的最后输出；

图像的预处理模块，所使用的添加高斯噪声方法避免了内容、风格提取模块可能出现的不均匀纹理问题，所使用的数据增广方法有效应对了图像风格迁移过程中的欠拟合问题；语义分割模块得到的内容图像和风格图像的语义特征，以及内容、风格特征提取模块所得到的是为风格匹配模块提供输入图像，图像相似度度量模块则是为了优化整个系统的输出。

2.根据权利要求1所述的一种基于三支聚类语义分割的图像风格迁移系统，其特征在于，内容和风格特征提取模块，包括内容编码器、样式编码器和联合解码器；所述内容编码器由多个卷积层构成，用以对输入进行下采样，以及使用残差块进一步处理，所有的卷积层后都紧跟着instance normalization，其作用是移除代表风格信息的原始特征均值与方差；所述风格编码器包括多个卷积层、一个平均池化层和一个全连接层；所述联合解码器通过一组残差块来对内容编码处理，然后通过上采样层和卷积层生成重构图像。

3.根据权利要求1所述的一种基于三支聚类语义分割的图像风格迁移系统，其特征在于，所述的图像相似度度量模块，用于以下过程，包括：使用SSIM指标计算系统生成的风格图像两两之间的相似度，经过分别比对两图像间亮度、对比度、和结构特征，最终计算出的相似度值，筛选出相似度低的图像作为系统的最终输出。

4.一种基于三支聚类语义分割的图像风格迁移方法，其特征在于，包括以下步骤：步骤1、图像预处理：对原图像添加高斯噪声，并使用数据增广的办法扩充样本集，包括：步骤1.1.添加高斯噪声；对内容图像做预处理操作，构建一个与内容图像Ic的大小、通道数都相同的高斯噪声矩阵，并且将噪声矩阵与原图相加，可得到一个含高斯噪声的图像，将其作为内容输入图像；对于内容图像中某通道的任意点(xi,yi)，其像素值可表示为z，高斯噪声的概率密度函数为：其中，z为像素点，P(z)为概率密度，σ为标准差，μ为所有点像素值的平均值；

步骤1.2.数据增广；采用缩放变换、裁剪、变换颜色、旋转、平移的任一种或其中多种变换方法，通过对训练图像做一系列随机改变，产生相似但又不同的训练样本，从而扩大训练数据集的规模，来降低模型对某些属性的依赖，提高了模型的泛化能力；

步骤2、语义分割：由k近邻改进的K‑means三支聚类方法进行图像的语义分割，得出图像中不同物体的语义图像，包括：步骤2.1.像素值归一化处理：利用图像的不变矩去寻找参数消除其他的变换函数对图像变换造成的影响，使得图像能够抵抗后续的几何变换的攻击；

为方便处理，将所有点的像素值映射到0‑1的范围内，其公式：

其中，data为原始像素值，min(data)为原始像素值中的最小值，max(data)为原始像素值中的最大值；

步骤2.2.K‑means算法求得聚类中心：根据一定策略选择K个点作为每个簇的初始中心，将数据划分到距离这K个点最近的簇中，即：将数据划分成K个簇完成一次划分；但考虑到初始划分不一定是最好的划分，因此生成的新簇中，重新计算每个簇的中心点，然后再重新进行划分，直到每次划分的结果保持不变；在实际应用中，通常会预先设定最大迭代次数，当达到最大迭代次数时，终止计算；

然后，求得相对合理的聚类中心，为后续划分核心域即边界域作前期准备；

步骤2.3.核心域类别标签分配：引入三支聚类的思想来辅助决策，三支聚类将数据样本数据划分为三个区域，即：C表示某个类别，则Co(C),Fγ(C),Tγ(C)分别表示核心域、边界域和外部区域；所述核心域表示一定从属于类别C的样本点集合，所述边界域表示可能从属于类别C的样本点集合，所述外部区域表示可能从属于类别C的样本点集合；

三个区域的关系如下：

其中，U为全集，Co(C)为核心域，Fγ(C)为边界域，Tγ(C)为外部区域，为空集；

即三个区域是互斥的、无交集的；

在此，使用改进的k近邻算法，并引入三支聚类的思想，以便为样本聚类中心以外的样本点分配标签，从而达到聚类的效果；

所述的k近邻算法，是通过计算一个点与其他所有点之间的距离，取出与该点最近的K个点，以k个点里面所属分类比例最大的类别来判断该点的所属类别，点与点之间的距离通常使用欧式距离，公式如下：其中，ρ为两点间的欧式距离，(x1,y1)和(x2,y2)为任意两点；

从而，求得距离某一点距离最近的K个点并称之为改点的邻域点，而后根据两个点的领域求得共享邻域，为后续核心域点和边界域点的标签分配做好准备工作；

如果不考虑外部区域，核心域和边缘域类别标签的方式应是不相同的；

核心域点的标签分配：核心域点的判别公式如下

其中，|SNN(this,next)|为两点共享邻域点的个数，this为当前点，next为需要判别的点；即当next点与this点的共享邻域中的点个数，即|SNN(this,next)|满足该公式时，将next归为this点所属的类中；

边界域点的标签分配：是指对核心域分配中未得到标签分配的点再分配的过程，包括形成分配矩阵M，用以记录某一点的所有邻域点的类别，并取邻域点所在最多的簇，将其标签分配给尚未得到标签分配的点；

步骤3、特征提取：使用MUNIT模型提取出图像的内容和风格特征；

步骤4、风格匹配：为充分融入语义信息，将风格匹配网络分为了语义匹配子网络和风格融合子网络；此两个子网络能够充分利用步骤2得到的语义信息图像；

步骤5、图像相似度度量：采用SSIM相似度度量函数两两计算不同图像间的相似值，从而在生成的不同风格图像中进行优选，并进一步筛选出相似度低的多张风格图像作为最后展示给用户的输出。

5.根据权利要求4所述的一种基于三支聚类语义分割的图像风格迁移方法，其特征在于，所述的步骤3中，内容和风格特征提取的过程包括；

MUNIT模型是对UNIT模型的扩展，这种扩展被称作是多模态数据之间的转换；UNIT认为不同的数据集可以共享同一个隐空间，MUNIT模型则将该隐空间进一步分为了内容隐空间和风格隐空间，风格隐空间是衡量原始图像与目标图像彼此差异的空间；

与UNIT模型相同，编码阶段由两个自编码器组成，不同的是，同过两部分网络映射到隐空间，在隐空间中被分解为内容和风格两个部分的特征；那么在解码阶段也是从这两个部分去进行重构；整个过程应要求内容和风格损失都达到最小，其损失函数定义如下：其中，为对抗性损失，为重构性损失，λx，λc，λs为控制重构项重要性的权重。

6.根据权利要求4所述的一种基于三支聚类语义分割的图像风格迁移方法，其特征在于，在所述的步骤4中，风格匹配过程包括：对基于语义分割得到的语义信息做风格迁移，即同一类对象之间的迁移；

为了融入语义信息，首先对原图的语义掩码mask对应着进行下采样，公式如下：m1＝downsampling(m,scale(l)) (7)其中，m1表示网络层l的语义掩码mask，scale(l)表示叫相对于m的下采样比率，该值由输入图像的分辨率和网络层l的输出分辨率共同决定；

然后，将风格特征接在特征维度上拼接起来，组合成新的风格特征，为平衡传统特征和语义信息对风格的影响，引入超参数λ，当λ＝0时，只使用传统特征做风格迁移，当λ＝+∞时，只使用语义信息做风格迁移；

sn＝norm(sl)||λ·norm(ml)， (8)

其中，sl为网络层l融合了语义信息后的风格特征，ml为来自内容图像的语义信息；

而在风格匹配子网络部分时，则利用余弦相似度来判断，公式如下：

其中，Φ为提取图像块特征的函数，为目标图像的风格特征，为风格图像的风格特征。

7.根据权利要求4所述的一种基于三支聚类语义分割的图像风格迁移方法，其特征在于，所述的步骤5中，图像的相似度度量过程包括：结构相似性指数SSIM用于度量两个图像之间的相似度，经常用作图像恢复建模后评价图像的修复情况；

SSIM指标从图像中提取亮度、对比度、结构这三个主要特征来进行图像之间的比较，从具体实现的角度来说，图像的亮度用均值表征，对比度用方差表征，结构用相关系数表征，具体公式为：其中，l(x,y)表示亮度，c(x,y)表示对比度，s(x,y)表示结构，μx为样本x的均值，μy为样本y的均值，σx为x的方差，σy为y的方差,σxy为x和y的协方差；

相似度函数为：

其中，SSIM为图像相似性度量指标，C1、C2为常数。