利索能及
我要发布
收藏
专利号: 2022104641042
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种边界引导上下文聚合的交通场景语义分割方法,其特征在于包括以下步骤:

(1)获取数据集与分割标签:

获取交通场景公开数据集与对应的分割标签;

(2)数据处理,具体包括以下步骤:

(2‑a)对步骤(1)获取的数据集中的图像与对应的分割标签同步水平翻转;

(2‑b)将步骤(2‑a)获得的图像及对应的分割标签都缩放至m1×m2像素大小,其中m1和m2分别为缩放后图像的宽和高,m1、m2都为正整数;

(2‑c)将步骤(2‑b)缩放得到的图像及对应的分割标签进行归一化操作,组成处理后的样本数据集;

(3)构建分割模型,具体包括以下步骤:

(3‑a)构建语义分割模块,该模块一共包括五组下采样层和一个空洞空间卷积池化金字塔模块,即ASPP模块;输入图像依次经过这五组下采样层,分别得到特征图F1、F2、F3、F4和F5,F5经过ASPP模块后,得到特征图Ff;第一组下采样层由一个残差卷积块与一个池化层组成,第二、三、四、五组下采样层都由一个残差卷积块组成;

(3‑b)构建边界细化模块,将步骤(3‑a)得到的特征图F2、F3、F4和F5分别经过一个卷积核大小为1×1的卷积层后得到相应的特征图F2′、F3′、F4′和F5′;利用边缘检测算子对输入图像进行边缘检测得到特征图B1,将B1经过一个卷积核大小为1×1的卷积层后得到特征图B11,B11与F2′共同输入到第一个注意力门控模块AG1,得到特征图B2;将B11经过一个卷积核大小为1×1的卷积层后得到特征图B12,B12与F3′共同输入到第二个注意力门控模块AG2后得到特征图B3;将B12经过一个卷积核大小为1×1的卷积层后得到特征图B13,B13与F4′共同输入到第三个注意力门控模块AG3后得到特征图B4;将B13经过一个卷积核大小为1×1的卷积层后得到特征图B14,B14与F5′共同输入到第四个注意力门控模块AG4后得到特征图B5;最后将特征图B2、B3、B4和B5拼接后得到特征图Bs,Bs经过一个卷积核大小为1×1的卷积层降维后得到特征图Bf;

(3‑c)将步骤(3‑a)得到的特征图Ff与步骤(3‑b)得到的特征图Bf共同输入到上下文聚合模块,即CAM模块,得到特征图Fp,Fp经过一个卷积核大小为3×3的卷积层后得到特征图F′p,将F′p上采样至原始图像大小,得到交通场景语义分割结果;将步骤(3‑b)得到的特征图Bf经过一个卷积核大小为3×3的卷积层后得到特征图Bp,将Bp上采样至原始图像大小,得到交通场景边界的二值分割结果;

(4)构建损失函数:

构建以下联合损失函数:

L=λ1Lbody+λ2Lboun+λ3Laux

其中,Lbody表示语义分割的交叉熵损失,Lboun表示边界分割的二项式交叉熵损失,Laux表示辅助的交叉熵损失, 表示像素i为第k类标签的真值,yi∈[0,1]表示像素i为边界的真值,λ1,λ2,λ3为超参数,其中λ1∈(0,1],λ2∈(0,1],λ3∈(0,20],I代表输入图像,k取正整数且k∈[1,K],K为分割结果的类别数,取正整数且K∈[2,160], 表示像素i为第k类的预测结果,pi∈(0,1)表示像素i为边界的预测结果,log为自然对数;

(5)训练分割模型:

利用步骤(2)得到的样本数据集训练步骤(3)构建完成的分割模型,根据步骤(4)构建的损失函数得到损失值,并使用随机梯度下降法更新模型内的参数,直至损失值不再下降,得到训练好的分割模型;

(6)交通场景图像分割:

获取待分割的交通场景图像,按照步骤(2)对它们进行数据处理后,输入步骤(5)得到的训练好的分割模型中,得到最终分割结果。

2.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3‑a)中的空洞空间卷积池化金字塔模块ASPP,该模块并行包含四个不同的卷积层和一个池化层:一个卷积核大小为1×1的卷积层,一个卷积核大小为3×3、填充率为6、采样率为6的卷积层,一个卷积核大小为3×3、填充率为12、采样率为12的卷积层,一个卷积核大小为3×3、填充率为18、采样率为18的卷积层,以及一个由最大池化和上采样构成的池化层;该模块以步骤(3‑a)得到的特征图F5作为输入,分别经过上述并行的四个不同的卷积层和一个池化层后,得到5个不同的特征图,将这些特征图拼接后得到特征图Af,Af经过一个卷积核大小为1×1的卷积层后得到特征图Ff。

3.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3‑b)的注意力门控模块AGi,该模块以步骤(3‑b)得到的特征图B1i与F′i+1作为输入,i=1,2,3,4;特征图B1i和F′i+1分别经过一个卷积核大小为1×1的卷积层后,将它们得到的结果逐像素相加,再经过ReLu激活函数后得到中间特征图Matt,Matt依次经过一个卷积核大小为1×1的卷积层和一个Sigmoid激活函数后再与B1i进行矩阵相乘,得到AG模块的输出特征图Bi+1,该过程可表示为:Matt=σ1(wbB1i+wfF′i+1)

其中,wb、wf和watt分别代表与特征图B1i、F′i+1和Matt进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,σ1(·)和σ2(·)分别代表ReLu与Sigmoid激活函数。

4.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3‑c)中的上下文聚合模块CAM,该模块以步骤(3‑a)得到的特征图Ff和步骤(3‑b)得到的特征图Bf作为输入;Ff经过一个卷积核大小为1×1的卷积层后得到特征图Q,Ff经过另外一个卷积核大小为1×1的卷积层后得到特征图K,Bf经过一个卷积核大小为1×1的卷积层后得到特征图V;特征图K经Softmax函数后与特征图Q矩阵相乘,得到中间特征图G,G经过一个卷积核大小为1×1的卷积层后的结果再与特征图V经过Softmax函数后的结果进行矩阵相乘,得到的结果再与特征图Ff逐像素相加,得到上下文聚合模块CAM的输出特征图Fp,它们的计算过程为:Q=wqFf

K=wkFf

V=wvBf

上式中,wq、wk、wv和wg分别表示与特征图Q、K、V和G进行卷积运算时所对应卷积核的线性变换系数, 表示矩阵相乘,⊕表示逐像素相加,Softmax(·)代表Softmax函数。

5.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(2‑b)中,正整数m1、m2的取值范围均在[520,1024]之间。

6.如权利要求1所述的一种边界引导上下文聚合的交通场景语义分割方法,其特征在于,所述步骤(3)中的所有卷积层都包含一个卷积、一个批归一化层和一个激活层。