利索能及
我要发布
收藏
专利号: 2023111462662
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.复杂城市街道场景实时语义分割方法,其特征在于,包括以下步骤:步骤1、采集复杂城市街道场景视频,并处理成图像;

步骤2、将步骤1所得图像部分制作成复杂城市街道场景训练集;

步骤3、将步骤2所得训练集进行标注获得训练集标签文件;

步骤4、搭建自适应注意力模块,包括空间注意模块和通道注意模块,具体为:空间注意模块首先对输入特征图进行1×1卷积降维,再经过两个并行自适应最大池化,输出结果经相乘方式融合得到注意图,如式(1)所示,而空间注意模块输出特征图如式(2)所示:(1)

(2)

式中, 表示注意图, 表示自适应最大池化, 表示1×1卷积, 表示输入特征图, 表示空间注意模块输出特征图;

通道注意模块采用自适应最大池化和自适应平均池化获取不同尺度的特征,再通过重塑和扩展得到通道注意模块输出图,由式(3)表示:(3)

式中, 表示通道注意模块输出特征图, 表示自适应平均池化, 表示输入特征图;

最后,空间注意特征和通道注意特征采用相加方式进行融合,最终得到自适应注意力模块输出特征图如式(4)所示:(4)

式中, 为自适应注意力模块输出特征图;

步骤5、基于步骤4所得自适应注意力模块,搭建基于自适应注意力的实时语义分割网络,由空间特征提取网络和语义特征提取网络两个分支组成,通过特征融合网络融合;其中,空间特征提取网络旨在获取分割类别像素点的位置信息,从高分辨率的图像中获取空间细节信息,空间特征提取网络分为三个相同的阶段,每个阶段由两个不同步长的3×3卷积层构成,每个阶段的两个卷积层中第一层步长为2、第二层步长为1,每个卷积层均带有批次归一化和参数修正线性单元;

语义特征提取网络基于FDSS‑nbt模块,旨在获取类别像素点的语义信息,从低分辨率图像中提取语义特征,语义特征提取网络分为四个步骤,其中,步骤Ⅰ、步骤Ⅱ使用卷积层和池化层对输入图像进行特征提取和特征筛选;步骤Ⅲ、步骤Ⅳ在下采样的基础上,引入非对称‑拆分‑瓶颈模块,采用扩张率分别为[1、3、6、12]、[3、6、12、24]的空洞卷积提取多尺度图像特征;

步骤6、使用步骤2所得训练集以及步骤3所得标签文件对步骤5所得实时语义分割网络进行训练,得到网络权重值;

步骤7、将步骤1所得图像部分制作成测试集,使用步骤6所得网络权重值对步骤5所得实时语义分割网络进行测试,得到复杂城市街道场景语义分割结果。

2.如权利要求1所述的复杂城市街道场景实时语义分割方法,其特征在于,所述步骤2中的训练集均为“.png”格式图像,包含黄昏和阳光明媚两个不同光照条件下的图像,共计

367张训练图像,101张验证图像。

3.如权利要求1所述的复杂城市街道场景实时语义分割方法,其特征在于,所述步骤3中训练集标签文件的标注采用InteractLabeler工具人工逐像素标注,标签格式为“.png”格式。

4.如权利要求1所述的复杂城市街道场景实时语义分割方法,其特征在于,所述步骤6‑3的训练过程使用Adam优化器,初始学习率设置为1e ,批大小设置为4,最大训练轮次为

1000,并使用数据增强技术:均值减法、水平翻转和在训练期间随机调整图像尺寸大小,随机缩放尺寸为0.75、1.0、1.25、1.5、1.75、2.0;使用学习率衰减策略和交叉熵损失函数来补偿数据集中像素占比小的类别,学习率由式(5)表示,损失计算由式(6)表示:(5)

式中, 为初始学习率, 为当前迭代次数, 为最大迭代次数,为学习率衰减参数,设置为0.9;

(6)

式中, 是总损失, 表示输出层的损失, 表示在应用注意力和特征细化之后第阶段的损失, ;

采用ENet中的类别权重计算方法处理训练集,得到网络权重值如式(7)所示:(7)

式中,表示类别号, 表示类别像素占图像像素的比重, 表示超参,取值为1.10。

5.如权利要求1所述的复杂城市街道场景实时语义分割方法,其特征在于,所述步骤7中的测试集包含黄昏和阳光明媚两个不同光照条件下的图像,共计233张测试图像。