买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多模态的遥感场景识别方法、系统及介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多模态的遥感场景识别方法、系统及介质

￥14400

专利号： 2023109370126

申请人：广东海洋大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多模态的遥感场景识别方法，其特征在于，所述方法包括以下步骤：获取遥感场景的图像集，所述图像集包含遥感场景的遥感图像；

搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络；

搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型；

将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别。

2.根据权利要求1所述的一种基于多模态的遥感场景识别方法，其特征在于，所述搭建用于提取遥感地物要素文本模态信息的语义分割网络，通过所述图像集对所述语义分割网络进行训练，得到训练好的语义分割网络，包括：构建遥感图像分割图像集，搭建基于U‑net的语义分割网络用以提取遥感图像中的语义要素；

对于所述图像集中的任意输入数据通过语义分割网络输出承载

语义要素位置坐标的分割结果其中j为输入数据中的分割结果语义数目，利用结果的映射关系可获得承载语义要素内容的文本信息使用交叉熵损失函数计算损失值，根据损失值并通过反向传播算法更新语义分割网络中的神经网络参数，得到训练好的语义分割网络。

3.根据权利要求2所述的一种基于多模态的遥感场景识别方法，其特征在于，所述搭建包含语义加权模块的多模态场景识别模型，将所述图像集经过训练好的语义分割模型获取地物要素并转换为文本信息集后，与所述图像集一并输入所述多模态场景识别模型进行训练，得到训练好的多模态场景识别模型，包括：搭建基于Vit网络和Bert网络的多模态场景识别模型；该多模态场景识别模型包括图像patch embedding模块、文本text embedding模块、语义加权模块、encoder模块、以及MLP分类模块，其中语义加权模块由全局平均池化和一个全连接层组成，全连接层由Linear函数、ReLU激活函数和Sigmoid函数构成；

基于所述图像集构建用于遥感场景识别的训练集和测试集将所述训练集输入所述多模态场景识别模型进行训练，将所述测试集输入所述多模态场景识别模型进行测试，并在测试通过后得到训练好的多模态场景识别模型。

4.根据权利要求3所述的一种基于多模态的遥感场景识别方法，其特征在于，所述将待分割的遥感图像输入到训练好的语义分割网络获取地物要素并转换为文本信息后，将所述文本信息与待分割的遥感图像一并输入所述训练好的多模态场景识别模型进行场景识别，包括：将待分割的遥感图像输入到训练好的语义分割网络以获取图像分割结果以及文本信息对所述遥感图像图像分割结果以及文本信息进行处理，得到多模态输入将多模态输入与图像分割结果输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果。

5.根据权利要求4所述的一种基于多模态的遥感场景识别方法，其特征在于，所述对所述遥感图像图像分割结果以及文本信息进行处理，得到多模态输入包括：在patch embedding模块中，首先将遥感图像切分为的patch，然后通过Position Embedding操作对输入的遥感图像进行位置编码，得到二维向量在text embedding模块中，利用预训练的Bert模型对文本信息进行文本编码，得到二维向量初始化用于分类的class token模块然后将其和进行拼接，得

到多模态输入。

6.根据权利要求5所述的一种基于多模态的遥感场景识别方法，其特征在于，所述将多模态输入与图像分割结果输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：对多模态输入与图像分割结果输入经过语义加权模块重新分配不同要素的权重，然后依次输入encoder模块、MLP分类模块，得到最终的分类结果，包括：对多模态输入的特征参数进行全局平均池化，得到池化后的特征参数；

将池化后的特征参数输入由Linear函数、ReLU激活函数和Sigmoid函数构成的全连接层，得到降维后的特征参数；

采用Sigmoid对降维后的特征参数进行处理，得到不同要素的权值

采用权值对多模态输入赋权，得到预处理后的多模态输入，将预处理后的多模态输入依次输入encoder模块、MLP分类模块，得到最终的分类结果。

7.一种基于多模态的遥感场景识别系统，其特征在于，所述系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至6任一项所述的基于多模态的遥感场景识别方法。

8.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至6中任意一项所述的基于多模态的遥感场景识别方法。