1.一种基于改进GCNet的多实例人像抠图方法,其特征在于,包括如下步骤:步骤1.搭建多实例人像抠图模型;
多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型;
其中,GCNet检测跟踪模型用于接收视频图像输入,并对输入的视频图像中每个实例均进行加框处理,然后输出带有ID边界框的视频图像;
GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块;
GCNet检测模块包括分类分支以及回归分支两部分;
GCNet检测模块的分类分支用于输出热力图作为置信映射;GCNet检测模块的回归分支则将热力图和特征图作为输入,计算目标实例的边界框;
GCNet检测模块的分类分支的输入为利用主干网络对视频图像进行特征提取得到的特征图F,GCNet检测模块的分类分支的输出为置信度热力图Yd;
GCNet检测模块的回归分支的输入为GCNet检测模块分类分支产生的置信度热力图Yd和利用主干网络对视频图像进行特征提取得到的特征图F;
GCNet跟踪模块用于接收当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量输入,为每个历史轨迹输出跟踪置信度和边界框;
SegNet抠图模型用于接收视频图像输入并获取特征,同时结合GCNet检测跟踪模型的输出,对每个实例生成alpha图,最终完成多目标的实例抠图;
步骤2.利用训练集训练多实例人像抠图模型,将训练好的模型用于多实例人像抠图。
2.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤1中,GCNet检测模块中信号处理流程如下:特征图F和检测置信度热力图Yd进入回归分支,计算三个特征图Q、K、V;计算特征图Q、K之前加入位置编码P;对于特征图F通过两个线性变换计算特征图Q和特征图K;
在进行目标检测时,使用同一帧图像中的K和Q;在进行目标跟踪时,使用上一帧图像中的Q和当前帧图像中的K;将检测和跟踪统一在同一个框架下,即为全局相关性;
计算相关性特征图C后,计算最终的边界框Bd,i,j=[xi,j,yi,j,hi,j,wi,j];
其中,d代表detection检测,xi,j表示框的顶部左侧点的水平坐标,yi,j表示框的顶部左侧点的垂直坐标,hi,j表示边界框的高,wi,j表示边界框的宽;
GCNet直接回归的是目标边界框的绝对坐标和尺寸,计算公式如下所示;
Bd,i,j=W·BN([Cij Vij]);
其中,W表示线性变换,Vij表示特征图F经过卷积得到的特征向量,Cij表示相关向量。
3.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法,其特征在于,在GCNet检测模块中引入CBAM模块作为注意力机制;
CBAM模块能够在空间维度和通道维度上进行操作,将GCNet检测模块中的分类分支产生的置信度Yd和主干网络提取的特征图F作为输入,生成特征向量;
CBAM模块将通道注意力和空间注意力融合在一起;
在GCNet检测模块中,将分类分支的置信度图Yd直接作为空间注意力。
4.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤1中,GCNet跟踪模块的处理流程如下:当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量送入GCNet跟踪模块,为每个历史轨迹输出一个跟踪置信度和边界框;
其中,跟踪置信度用于表明跟踪目标仍旧在当前帧上的概率。
5.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤1中,在GCNet检测模块的分类分支中,通过在每个实例的中心放置热力图来标记每个实例,热力图为靠近中心的点提供高权重值,随着距离的增加,值下降。
6.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述SegNet抠图模型包括编码器、循环解码器和深度引导滤波器DGF;
信号在SegNet抠图模型中的处理流程如下:
将GCNet检测跟踪模型输出的带有实例ID的特征送入编码器,编码器对单个帧进行操作,并提取1/2、1/4、1/8和1/16尺度的特征;
SPPCSPC模块有四条分支分别使用池化层,将不同尺度的特征图调整到统一的大小,并且多次使用跳跃连接进行特征融合,将深层特征与浅层特征进行融合;
在经过SPPCSPC模块后,瓶颈模块Bottleneck block对1/16规模大小的特征进行操作;
上采样模块Upsampling block重复运用1/8、1/4和1/2规模大小的特征;
将前一个块的双线性上采样输出、编码器相应尺度的特征图和重复2×2平均池化下采样的输入图像连接起来,然后进行卷积、批归一化和ReLU激活进行特征合并和通道缩减;
输出模块Output block不使用ConvGRU,仅使用常规卷积来优化结果;
首先连接输入图像和前一个块的双线性上采样输出以及GCNet检测跟踪模型的ID位置信息,采用两次重复卷积、批归一化和ReLU激活生成最终的隐藏特征;
将低分辨率的alpha图、最终隐藏特征以及高分辨率的输入帧提供给深度引导滤波器DGF模块,产生高分辨率的alpha图,生成每个实例的图结果。
7.根据权利要求6所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述SegNet抠图模型采用GhostNet作为主干网络进行特征提取;
具体过程如下:首先利用1x1卷积获得输入特征的必要特征浓缩,再利用深度可分离卷积获得特征浓缩的相似特征图Ghost,最后在通道上将两者进行拼接。
8.根据权利要求6所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述SPPCSPC模块包含CBS模块、最大池化模块和融合模块;CBS模块是由卷积层Convolution layer、归一化层Normalization layer以及激活层Silu layer组成;
CBS模块有两种,分别为第一CBS模块以及第二CBS模块;
其中,第一CBS模块的卷积核为1×1、步长为1,第一CBS模块用于改变通道数;第二CBS模块的卷积核为3×3、步长为1,第二CBS模块用于提取特征;
对输入数据依次经过一个第一CBS模块、第二CBS模块以及第一CBS模块处理后,分别对处理后的数据进行5×5、9×9和13×13的最大池化操作;
融合模块包括第一融合连接模块和第二融合连接模块;
第一融合连接模块将最大池化三个不同尺度的池化结果进行融合,融合后的结果依次经过一个第一CBS模块和一个第二CBS模块进行处理,得到第一中间处理结果;SPPCSPC模块输入后的数据经过一个第一CBS模块后得到第二中间处理结果;第二融合连接模块将第一中间处理结果与第二中间处理结果融合,再将融合结果经过一个第一CBS模块后输出。
9.根据权利要求6所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤2具体为:步骤2.1.准备样本集I,其中包括含多个目标的RGB人像视频、每个实例添加矩形边界框的人像视频;准备样本集II,其中包括含多个目标的RGB人像视频、RGB原始人像视频对应的原始透明遮罩,并将样本集I、II划分成训练集和验证集;
步骤2.2.通过GCNet检测跟踪模型实现对多目标实例的检测跟踪,使用训练好的模型进行检测跟踪,初始化轨迹集合、置信度集合、特征向量集合以及候选集合为空集;
对当前帧进行检测,并对已存在的轨迹和候选检测框进行跟踪;
置信度小于p2的轨迹和候选对象将被删除,而其他轨迹、候选对象以及相应的特征将会被更新;更新策略,即Yi=min(2×Yi×Yt,i,1.5);其中,Yi表示轨迹置信度,Yt,i表示跟踪置信度;设定超参数p1、p2、p3,检测结果中IoU高于p3或者置信度低于p2的结果会被忽略;然后剩下的检测框中,检测置信度高于p1的会开始生成新的轨迹,再次剩下的检测框会加入到候选集合C中;
步骤2.3.首先在SegNet抠图模型中没有DGF模块的低分辨率数据集上,训练15个epoch,将样本集II送入编码器进行编码得到浅层纹理信息、中层特征信息和高层语义表征信息,将其输送至解码器进行特征提取和融合,GhostNet作为主干网络为循环解码器提取
1/2、1/4、1/8和1/16规模大小的特征;提取特征后进入SPPCSPC模块,通过最大池化来获得不同感受野;
步骤2.4.附加DGF模块,并用高分辨率的样本进行1epoch的训练;
步骤2.5.将步骤2.2中GCNet检测跟踪模型的输出带有边界框的轨迹集合送入循环解码器,在多尺度上采用ConvGRU对时间信息进行聚合将低分辨率的alpha图、最终隐藏特征以及高分辨率的输入帧提供给DGF模块,产生高分辨率的alpha图,生成每个实例的图结果。