利索能及
我要发布
收藏
专利号: 2021114513366
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于包括以下步骤:

(1)获取数据集与分割标签:获取半监督视频目标分割数据集与对应的分割标签;

(2)构建分割模型,具体包括以下步骤:(2‑a)构建特征提取器,其中共包括一层卷积模块和四层残差模块,视频图像依次经过r1 r2 r3 r4

卷积模块及四层残差模块,分别得到残差模块对应的中间特征图x 、x 、x 、x ;第一层残差模块包括一个池化层和三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第r1

一层残差模块的输出为中间特征图x ;第二层残差模块包括四个残差卷积模块,每个残差r2

卷积模块内包括三个卷积模块,第二层残差模块的输出为中间特征图x ;第三层残差模块包括六个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第三层残差模块的输出r3

为中间特征图x ;第四层残差模块包括三个残差卷积模块,每个残差卷积模块内包括三个r4

卷积模块,第四层残差模块的输出为中间特征图x ;

l h

(2‑b)构建多尺度目标模型,该模型由两个独立的目标模型T 和T 构成,两者各包括一r2 r3 l

个1×1卷积模块和一个3×3卷积模块,将步骤(2‑a)得到的中间特征图x 和x 分别作为Th l h l

和T的输入;目标模型T和T中的1×1卷积模块都是对特征进行降维;目标模型T中的3×3l h

卷积模块得到低维目标外观信息cs ,目标模型T中的3×3卷积模块得到高维目标外观信息h

cs;

(2‑c)构建分割解码器,其中包括四层解码结构,第一层解码结构包括一个特征融合模块,一个通道注意力模块,一个细化残差模块和一个全局池化模块;第二、三、四层解码结构均包括一个特征融合模块,一个通道注意力模块和一个细化残差模块;其中特征融合模块的作用是将步骤(2‑b)中多尺度目标模型得到的目标外观信息与步骤(2‑a)中提取的中间特征图进行融合,来捕捉不同视频帧之间目标的动态变化,该模块包括尺度转换和自适应融合两个部分,其中尺度转换部分将目标外观信息与中间特征图映射到同一尺度并拼接到一起,自适应融合部分计算拼接后的特征图中的各特征通道权重并进行适应性加权;通道注意力模块的作用是将不同层的特征图进行通道注意力优化;细化残差模块的作用是对特征图进行进一步细化,优化目标细节;

r4 l h

(2‑d)将步骤(2‑a)中得到的中间特征图x 与步骤(2‑b)得到的多维信息cs 和cs输入

4 4

到步骤(2‑c)构建的第一层解码结构内的特征融合模块中,得到融合特征图s ,对s进行全4

局池化操作,其结果与s 一起输入到第一层解码结构内的通道注意力模块,再经过细化残4

差模块,得到目标特征图o;

r3 l h

将步骤(2‑a)中得到的中间特征图x 与步骤(2‑b)得到的多维信息cs 和cs输入到步骤

3 3

(2‑c)构建的第二层解码结构内的特征融合模块中,得到融合特征图s ,将s 与第一层解码4

结构输出的目标特征图o一起输入到第二层解码结构内的通道注意力模块中,再经过细化3

残差模块,得到目标特征图o;

r2 l h

将步骤(2‑a)中得到的中间特征图x 与步骤(2‑b)得到的多维信息cs 和cs输入到步骤

2 2

(2‑c)构建的第三层解码结构内的特征融合模块中,得到融合特征图s ,将s 与第二层解码3

结构输出的目标特征图o一起输入到第三层解码结构内的通道注意力模块中,再经过细化2

残差模块,得到目标特征图o;

r1 l h

将步骤(2‑a)中得到的中间特征图x 与步骤(2‑b)得到的多维信息cs 和cs输入到步骤

1 1

(2‑c)构建的第四层解码结构内的特征融合模块中,得到融合特征图s ,将s 与第三层解码2

结构输出的目标特征图o一起输入到第四层解码结构内的通道注意力模块中,再经过细化1

残差模块,得到目标特征图o;

1

将目标特征图o进行上采样,得到分割结果 完成分割模型的构建;

(3)训练分割模型:

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型,该模型中的特征提取器使用预训练模型,不更新模型参数;使用交叉熵作为分割模型的损失函数得到损失值,并使用Adam算法更新分割模型内除特征提取器外的模型参数,直到损失值不再下降,得到训练好的分割模型;

(4)推理:

将测试视频数据逐帧输入至分割模型;输入初始帧后,使用步骤(2‑a)中构建的特征提r2

取器提取特征,并初始化缓存池M,缓存池M用于存储步骤(2‑a)中得到的中间特征图x 和r3

x 、步骤(2‑d)中得到的分割结果 以及每帧的样本权重θ;接着按顺序输入其余帧,使用步骤(2‑a)中构建的特征提取器提取特征,使用步骤(2‑b)中构建的多尺度目标模型提取目标外观信息,使用(2‑c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息,得到对应帧的分割结果,将分割结果与步骤(2‑a)中得到的中间特征图存入缓存池M;更新缓存池样本权重θ,达到缓存池容量上限后,删除权重最小的样本;

(5)视频目标分割:

获取推理阶段中测试视频序列的各帧分割结果,与原图进行混合加权融合,并制作成视频流,得到视频目标分割结果。

2.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2‑b)中的多尺度目标模型,该模型的作用是在视频推理阶段学习目标外观信息,提升视频推理速度,具体公式可表示为:l h

其中 和 分别表示T中的1×1卷积模块和3×3卷积模块, 和 分别表示T中的1×1卷积模块和3×3卷积模块,*表示卷积操作。

3.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2‑c)中的分割解码器中的特征融合模块,该模块的作用是将步骤(2‑b)中多尺度目标模型得到的目标外观信息与步骤(2‑a)中提取的中间特征图进行融合,来捕捉不同视频帧之间目标的动态变化,具体过程为:d l h rd

q=Concat[U(cs),U(cs),R(x )]rd rd

其中x 表示步骤(2‑a)中得到的中间特征图,x 中d的值取1,2,3,4,分别对应中间特征r1 r2 r3 r4 l h图x 、x 、x 、x ,cs 和cs表示(2‑b)中得到的低维和高维目标外观信息,R表示降维操作,U表示上采样操作, 表示逐像素相乘操作, 表示逐像素相加操作,Concat表示拼接操作,d

q表示拼接后的特征图;Pool表示全局池化操作,Gate表示1×1卷积操作,σ表示sigmoid函d

数,Conv表示3×3卷积操作,s表示融合特征图。

4.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2‑c)中的分割解码器中的通道注意力模块,该模块的作用是将不同层的特征图进行通道注意力优化,提升分割效果;通道注意力模块将同一特征层中通过步骤(2‑c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2‑c)中细化残差模块得到的目标特征图合并后进行全局池化,得到初始通道权重,其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替;初始通道权重依次通过由1×1卷积块、ReLU函数、1×1卷积块和sigmoid函数组成的通道注意力结构进行权重优化;将优化后的通道权重与融合特征图进行逐像素相乘,再将相乘结果与经过上采样操作的目标特征图进行逐像素相加,得到注意力特征图。

5.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2‑c)中的分割解码器中的细化残差模块,该模块的作用是对特征图进行进一步细化,优化目标细节;细化残差模块的输入为同一特征层中步骤(2‑c)中通道注意力模块得到的注意力特征图,将注意力特征图依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块后得到的特征图与原注意力特征图通过1×1卷积块后得到的特征图进行逐像素相加,再通过ReLU函数得到目标特征图。

6.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(4)中的推理,推理阶段将测试视频数据逐帧输入至分割模型,输入初始帧后,使用步骤(2‑a)中构建的特征提取器提取特征,并初始化缓存池M;缓存池M存储样本信息来更新多尺度目标模型,缓存池M可表示为:r2 r3

其中N为缓存池最大容量,N为整数,且50≤N≤100,x 和x 为步骤(2‑a)中得到的中间特征图,θ表示样本权重,存在两种情况:在初始帧中 表示该帧对应标签,在其余帧中则表示步骤(2‑d)中得到的分割结果;

r1 r2

接着按顺序输入其余帧,使用步骤(2‑a)中构建的特征提取器得到中间特征图x 、x 、r3 r4 l h

x 、x ,使用步骤(2‑b)中构建的多尺度目标模型得到目标外观信息cs和cs ,使用步骤(2‑c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息,得到对应r2 r3

帧的分割结果 将步骤(2‑a)中得到的中间特征图x 和x 、步骤(2‑c)中得到的分割结果以及对应的样本权重θ制作成新的样本数据存入缓存池;更新缓存池样本权重θ:θi=(1+δ)θi‑1

其中θi表示第i帧对应的样本权重,θi‑1表示第i‑1帧对应的样本权重,δ为权重更新参数,且0≤δ≤1;当缓存池容量达到N后,通过删除权重最小的样本来更新权重。