1.一种城市场景零样本识别方法,其特征在于:包括以下步骤
S1、从获取到的样本数据集中选定部分类别为训练集,其余部分则为测试集;训练集样本包括类别信息,测试集样本不包括类别信息;
S2、构建零样本识别模型,零样本识别模型包括视觉空间和语义空间,并将视觉空间作为嵌入空间;在视觉空间中,提取面向局部景观标记的建议框,并通过此建议框提取局部景观特征,接着通过级联的方式对局部景观特征和全局特征进行融合;
在语义空间中,将每一个类别的场景名称转化为该场景对应的语义向量,通过一个映射矩阵,将语义向量映射嵌入至视觉空间,在视觉空间中进行未知类的识别;
S3、构建基于语义相关矩阵的权重映射损失函数,基于训练集利用该损失函数对零样本识别模型进行更新优化,得到训练完成的零样本识别模型;
S4、分别在UCM、AID、NWPU三个数据集上对训练完成的零样本识别模型进行可靠性测试;
S5、通过总体精度、类平均精度以及混淆矩阵指标对零样本识别模型进行定量评估;
S6、将未知类城市场景影像输入至零样本识别模型,获取该未知类城市场景所属类别;
步骤S2中,提取面向局部景观标记的建议框的方法包括以下步骤
S2.1.1、设置三类地物,分别为建筑物、植被以及不透水面,采用MBI指数、NDI指数、BCI指数分别提取遥感影像中的建筑物、植被、不透水面像素集合{Wth,Veg,Ipv};
S2.1.2、记当前建议框为Frame,对于遥感影像中的某个像素pixeli,以该像素pixeli作为中心采用八邻域标记算法进行区域增长,并记录每次区域增长后的DSloc,DSloc为用于表示地物密集程度和地物种类丰富程度的聚集度指标;当DSloc出现连续增大3次后又连续减小3次的情况时,停止区域增长并记录当前建议框为Framei;否则,到达边界即停止区域增长,像素pixeli无对应的建议框;
S2.1.3、重复步骤S2.1.3,遍历遥感影像中的所有像素,获得建议框集合Frameall;
S2.1.4、令遥感影像像素总数为pixeltot,将0到pixeltot等分为10个区间,统计建议框集合Frameall中每个建议框的像素个数,并按照所属区间进行聚类;
S2.1.5、分别取每个区间内DSloc最大值或并列最大值对应的建议框,构成每幅遥感影像xi最终的建议框集合Frameopt;
步骤S2中,局部景观特征的提取包括以下步骤
S2.2.1、采用ImageNet数据集对卷积神经网络模型VGGNet进行预训练,使卷积神经网络模型VGGNet能够分类包括典型城市目标在内的1000类地物,此1000类地物包括建筑物、火车以及池塘;
S2.2.2、基于每幅遥感影像xi最终的建议框集合Frameopt=[F1,...,Fi,...,FQ],逐一将Fi通过VGGnet模型的softmax层获得一组1000维的得分向量S=[s1,...,si,...,s1000],得分向量的每个元素分别代表1000类地物o的出现概率;
S2.2.3、遍历建议框集合Frameopt中的所有Q个建议框,获得遥感影像xi对应的局部特征矩阵S=[S1,S2,...,SQ];
S2.2.4、基于遥感影像xi的局部特征矩阵的均值来获取图像x的局部特征FLocal,如下所示:其中,Sq代表局部特征矩阵S=[S1,S2,...,SQ]的第q个元素;
步骤S2中,采用卷积神经网络模型VGGNet的全连接层输出作为遥感影像的全局特征
1024 1024
FGlobal∈R ;采用非加权级联的融合方法融合全局特征FGlobal∈R 和局部景观特征FLocal
1000
∈R ,融合后的特征FFusion表示为:
FFusion=[FGlobal,FLocal]
其中,FGlobal表示全局特征,FLocal表示局部景观特征;
步骤S2中,语义空间中,基于Word2Vec词向量模型获得可见类场景语义向量集合Y={Y1,Y2,...,YU}和不可见类场景语义向量集合Z={Z1,Z2,...,ZV},其中,U和V分别表示可见类和不可见类场景的类别总数;对于一个可见类场景类u,采用高斯核函数构建归一化语义相关性度量Cu:其中,Yu代表可见类场景语义向量集合Y={Y1,Y2,...,YU}中的第u个元素,Zv代表不可见类场景语义向量集合Z={Z1,Z2,...,ZV}中的第v个元素;
步骤S3中,基于语义相关矩阵的权重映射损失函数的构建包括以下步骤S3.1、通过Least Square Embedding Loss将融合后的特征FFusion与可见类场景语义向量Yu连接在一起;
S3.2、将归一化语义相关性度量Cu嵌入Least Square Embedding Loss,最终构建权重映射损失函数,如下式所示:其中,W是语义嵌入分支的随机编码矩阵,用于对齐视觉空间和语义空间,即用于将语义向量映射嵌入至视觉空间的一个映射矩阵;λ是正则化的参数。
2.根据权利要求1所述的一种城市场景零样本识别方法,其特征在于:所述步骤S2.1.2中,通过下式计算用于表示地物密集程度和地物种类丰富程度的聚集度指标DSloc:其中,H为当前建议框的对角线长度;di为当前建议框中某一像素pixel到中心像素的距离;Bm分别为当前建议框内某个像素对应的MBI指数、NDI指数以及BCI指数的值,其中m=
1,2,3。
3.根据权利要求1所述的一种城市场景零样本识别方法,其特征在于:所述步骤S5中,总体精度的计算如下式所示:其中,Nt和Nf分别表示正确分类和错误分类样本的数量;
类平均精度的计算如下式所示:
其中,Ci是第i类正确分类的样本数,Ni是第i类总样本数,n是类数。
4.一种城市场景零样本识别系统,其特征在于:包括
样本选择模块,用于从获取到的样本数据集中选定部分类别为训练集,其余部分则为测试集;训练集样本包括类别信息,测试集样本不包括类别信息;
模型构建模块,用于构建零样本识别模型,零样本识别模型包括视觉空间和语义空间,并将视觉空间作为嵌入空间;在视觉空间中,提取面向局部景观标记的建议框,并通过此建议框提取局部景观特征,接着通过级联的方式对局部景观特征和全局特征进行融合;在语义空间中,将每一个类别的场景名称转化为该场景对应的语义向量,通过一个映射矩阵,将语义向量映射嵌入至视觉空间,在视觉空间中进行未知类的识别;
提取面向局部景观标记的建议框的方法包括以下步骤
S2.1.1、设置三类地物,分别为建筑物、植被以及不透水面,采用MBI指数、NDI指数、BCI指数分别提取遥感影像中的建筑物、植被、不透水面像素集合{Wth,Veg,Ipv};
S2.1.2、记当前建议框为Frame,对于遥感影像中的某个像素pixeli,以该像素pixeli作为中心采用八邻域标记算法进行区域增长,并记录每次区域增长后的DSloc,DSloc为用于表示地物密集程度和地物种类丰富程度的聚集度指标;当DSloc出现连续增大3次后又连续减小3次的情况时,停止区域增长并记录当前建议框为Framei;否则,到达边界即停止区域增长,像素pixeli无对应的建议框;
S2.1.3、重复步骤S2.1.3,遍历遥感影像中的所有像素,获得建议框集合Frameall;
S2.1.4、令遥感影像像素总数为pixeltot,将0到pixeltot等分为10个区间,统计建议框集合Frameall中每个建议框的像素个数,并按照所属区间进行聚类;
S2.1.5、分别取每个区间内DSloc最大值或并列最大值对应的建议框,构成每幅遥感影像xi最终的建议框集合Frameopt;
局部景观特征的提取包括以下步骤
S2.2.1、采用ImageNet数据集对卷积神经网络模型VGGNet进行预训练,使卷积神经网络模型VGGNet能够分类包括典型城市目标在内的1000类地物,此1000类地物包括建筑物、火车以及池塘;
S2.2.2、基于每幅遥感影像xi最终的建议框集合Frameopt=[F1,...,Fi,...,FQ],逐一将Fi通过VGGnet模型的softmax层获得一组1000维的得分向量S=[s1,...,si,...,s1000],得分向量的每个元素分别代表1000类地物o的出现概率;
S2.2.3、遍历建议框集合Frameopt中的所有Q个建议框,获得遥感影像xi对应的局部特征矩阵S=[S1,S2,...,SQ];
S2.2.4、基于遥感影像xi的局部特征矩阵的均值来获取图像x的局部特征FLocal,如下所示:其中,Sq代表局部特征矩阵S=[S1,S2,...,SQ]的第q个元素;
1024
采用卷积神经网络模型VGGNet的全连接层输出作为遥感影像的全局特征FGlobal∈R ;
1024 1000
采用非加权级联的融合方法融合全局特征FGlobal∈R 和局部景观特征FLocal∈R ,融合后的特征FFusion表示为:FFusion=[FGlobal,FLocal]
其中,FGlobal表示全局特征,FLocal表示局部景观特征;
语义空间中,基于Word2Vec词向量模型获得可见类场景语义向量集合Y={Y1,Y2,...,YU}和不可见类场景语义向量集合Z={Z1,Z2,...,ZV},其中,U和V分别表示可见类和不可见类场景的类别总数;对于一个可见类场景类u,采用高斯核函数构建归一化语义相关性度量Cu:其中,Yu代表可见类场景语义向量集合Y={Y1,Y2,...,YU}中的第u个元素,Zv代表不可见类场景语义向量集合Z={Z1,Z2,...,ZV}中的第v个元素;
损失函数构建模块,用于构建基于语义相关矩阵的权重映射损失函数,基于训练集利用该损失函数对零样本识别模型进行更新优化,得到训练完成的零样本识别模型;基于语义相关矩阵的权重映射损失函数的构建包括以下步骤S3.1、通过Least Square Embedding Loss将融合后的特征FFusion与可见类场景语义向量Yu连接在一起;
S3.2、将归一化语义相关性度量Cu嵌入Least Square Embedding Loss,最终构建权重映射损失函数,如下式所示:其中,W是语义嵌入分支的随机编码矩阵,用于对齐视觉空间和语义空间,即用于将语义向量映射嵌入至视觉空间的一个映射矩阵;λ是正则化的参数;
可靠性测试模块,用于分别在UCM、AII)、NWPU三个数据集上对训练完成的零样本识别模型进行可靠性测试;
定量评估模块,用于通过总体精度、类平均精度以及混淆矩阵指标对零样本识别模型进行定量评估;
场景识别模块,将未知类城市场景影像输入至零样本识别模型,获取该未知类城市场景所属类别。