利索能及
我要发布
收藏
专利号: 2023109370126
申请人: 广东海洋大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多模态的遥感场景识别方法,其特征在于,所述方法包括以下步骤:获取遥感场景的图像集,所述图像集包含遥感场景的遥感图像;

搭建用于提取遥感地物要素文本模态信息的语义分割网络,通过所述图像集对所述语义分割网络进行训练,得到训练好的语义分割网络;

搭建包含语义加权模块的多模态场景识别模型,将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后,与所述图像集一并输入所述多模态场景识别模型进行训练,得到训练好的多模态场景识别模型;

将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后,将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别。

2.根据权利要求1所述的一种基于多模态的遥感场景识别方法,其特征在于,所述搭建用于提取遥感地物要素文本模态信息的语义分割网络,通过所述图像集对所述语义分割网络进行训练,得到训练好的语义分割网络,包括:构建遥感图像分割图像集 ,搭建基于U‑net的语义分割网络 用以提取遥感图像中的语义要素;

对于所述图像集中的任意输入数据 通过语义分割网络 输出承载

语义要素位置坐标的分割结果 其中j为输入数据中的分割结果语义数目,利用结果的映射关系可获得承载语义要素内容的文本信息 使用交叉熵损失函数计算损失值,根据损失值并通过反向传播算法更新语义分割网络 中的神经网络参数,得到训练好的语义分割网络 。

3.根据权利要求2所述的一种基于多模态的遥感场景识别方法,其特征在于,所述搭建包含语义加权模块的多模态场景识别模型,将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后,与所述图像集一并输入所述多模态场景识别模型进行训练,得到训练好的多模态场景识别模型,包括:搭建基于Vit网络和Bert网络的多模态场景识别模型;该多模态场景识别模型包括图像patch embedding模块、文本text embedding模块、语义加权模块、encoder模块、以及MLP分类模块,其中语义加权模块由全局平均池化和一个全连接层组成,全连接层由Linear函数、ReLU激活函数和Sigmoid函数构成;

基于所述图像集构建用于遥感场景识别的训练集 和测试集 将所述训练集输入所述多模态场景识别模型进行训练,将所述测试集 输入所述多模态场景识别模型进行测试,并在测试通过后得到训练好的多模态场景识别模型。

4.根据权利要求3所述的一种基于多模态的遥感场景识别方法,其特征在于,所述将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后,将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别,包括:将待分割的遥感图像 输入到训练好的语义分割网络 以获取图像分割结果 以及文本信息对所述遥感图像 图像分割结果 以及文本信息 进行处理,得到多模态输入将多模态输入 与图像分割结果 输入经过语义加权模块重新分配不同要素的权重,然后依次输入encoder模块、MLP分类模块,得到最终的分类结果。

5.根据权利要求4所述的一种基于多模态的遥感场景识别方法,其特征在于,所述对所述遥感图像 图像分割结果 以及文本信息 进行处理,得到多模态输入 包括:在patch embedding模块中,首先将遥感图像切分为 的patch,然后通过Position Embedding操作对输入的遥感图像 进行位置编码,得到二维向量在text embedding模块中,利用预训练的Bert模型对文本信息 进行文本编码,得到二维向量初始化用于分类的class token模块 然后将其和 进行拼接,得

到多模态输入 。

6.根据权利要求5所述的一种基于多模态的遥感场景识别方法,其特征在于,所述将多模态输入 与图像分割结果 输入经过语义加权模块重新分配不同要素的权重,然后依次输入encoder模块、MLP分类模块,得到最终的分类结果,包括:对多模态输入 与图像分割结果 输入经过语义加权模块重新分配不同要素的权重,然后依次输入encoder模块、MLP分类模块,得到最终的分类结果,包括:对多模态输入 的特征参数进行全局平均池化,得到池化后的特征参数;

将池化后的特征参数输入由Linear函数、ReLU激活函数和Sigmoid函数构成的全连接层,得到降维后的特征参数;

采用Sigmoid对降维后的特征参数进行处理,得到不同要素的权值

采用权值 对多模态输入 赋权,得到预处理后的多模态输入,将预处理后的多模态输入依次输入encoder模块、MLP分类模块,得到最终的分类结果。

7.一种基于多模态的遥感场景识别系统,其特征在于,所述系统包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至6任一项所述的基于多模态的遥感场景识别方法。

8.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的基于多模态的遥感场景识别方法。