买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于ViT的遥感影像大模型的在线增量学习方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于ViT的遥感影像大模型的在线增量学习方法

￥24000

专利号： 2025108203341

申请人：成都理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于ViT的遥感影像大模型的在线增量学习方法，其特征在于，包括以下步骤；

S1，获取遥感影像数据集D，D={X1,X2,…,Xi,…,XN}，Xi为D中第i个经过类别标注的图像块，，C为光谱通道数，P×P为图像块尺寸，N为图像块总数；

S2，构造一双分支编解码网络，包括空‑谱双分支编码器、混合连接编码器HCE和混合连接解码器HCD，构造方法包括S21 S23；

S21，构造空‑谱双分支编码器，包括空间编码器和光谱编码器；

所述空间编码器用于对Xi进行随机掩码和空间编码，得到空间特征ei,s，所述光谱编码器用于对Xi进行随机掩码和光谱编码，得到光谱特征ei,c；

S22，构造混合连接编码器HCE；

获取两个结构相同的Transformer编码器，均由Z个Transformer层堆叠而成；

将一Transformer编码器输入端连接空间编码器的输出，其中第z个Transformer层标记为Esz，另一Transformer编码器输入端连接光谱编码器的输出，其中第z个Transformer层标记为Ecz，1≤z≤Z；

将Esz中多头自注意力层修改为第一混合连接注意力模块HCA1，得到空间编码分支，将Ecz中多头自注意力层修改为第二混合连接注意力模块HCA2，得到光谱编码分支，两编码分支构成混合连接编码器；

所述HCA1的输出特征HCA(c,s)、HCA2的输出特征HCA(s,c)分别根据下式得到；

HCA(c,s)=Attention(Qc,Kc,Vc)+Attention(Qc,Ks,Vs)，HCA(s,c)=Attention(Qs,Ks,Vs)+Attention(Qs,Kc,Vc)，式中，Attention(∙)为自注意力操作，Qc、Kc、Vc分别为Ecz中的Q矩阵、K矩阵和V矩阵，Qs、Ks、Vs分别为Esz中的Q矩阵、K矩阵和V矩阵；

S23，构造混合连接解码器HCD，包括空间解码分支和光谱解码分支，空间解码分支用于对空间编码器的掩码区域进行预测，得到空间重建图，所述光谱解码分支用于对光谱编码器的掩码区域进行预测，得到光谱重建图；

S3，构造双分支编解码网络的损失函数L，用遥感影像数据集D以最小化L训练至收敛，得到第一基础模型并冻结其参数；

S4，删除第一基础模型中HCD，将HCE两路输出相加后送入一分类器，得到第二基础模型，所述第二基础模型用于输入图像块，输出其对应的分类结果；

S5，第二基础模型的在线增量学习；

S51，在第二基础模型的空间编码分支和光谱编码分支各引入一LoRA模块；

S52，用第二基础模型在线检测由图像块构成的数据流，用数据流基于LoRA方法更新LoRA模块参数，并检测数据流的数据分布是否改变；

S53，若改变，将LoRA模块参数并入第二基础模型，并重复S51 S52，否则不处理。

2.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法，其特征在于，S23中，混合连接解码器HCD的结构为；

获取两个结构相同的Transformer解码器，均由Z个Transformer层堆叠而成；

将一Transformer解码器输入端连接空间编码分支的输出，其中第z个Transformer层标记为Dsz，另一Transformer解码器输入端连接光谱编码分支的输出，其中第z个Transformer层标记为Dcz；

将Dsz中多头自注意力层修改为第三混合连接注意力模块HCA3，得到空间解码分支，将Dcz中多头自注意力层修改为第四混合连接注意力模块HCA4，得到光谱解码分支，两解码分支构成混合连接解码器，且空间解码器用于对空间编码器的掩码区域进行预测，得到空间重建图，光谱解码器用于对光谱编码器的掩码区域进行预测，得到光谱重建图；

HCA3的输出特征HCA(sD,sE)、HCA4的输出特征HCA(cD,cE)分别根据下式得到；

HCA(sD,sE)=Attention(QsD,KsD,VsD)+Attention(QsD,KsE,VsE)，HCA(cD,cE)=Attention(QcD,KcD,VcD)+Attention(QcD,KcE,VcE)，式中，QsD、KsD、VsD为分别为Dsz中的Q矩阵、K矩阵和V矩阵，KsE、VsE分别为Esz中的Q矩阵、K矩阵；QcD、KcD、VcD为分别为Dcz中的Q矩阵、K矩阵和V矩阵，KcE、VcE分别为Ecz中的Q矩阵、K矩阵。

3.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法，其特征在于，S3中，损失函数L根据下式计算；

，

、分别为空间重建损失和光谱重建损失，LSSC为空间特征和光谱特征间的对称InfoNCE损失，λ为LSSC的权重。

4.根据权利要求3所述的一种基于ViT的遥感影像大模型的在线增量学习方法，其特征在于，，

，

式中，|Ms|为空间编码器的掩码区域Ms中像素总数，Xs(p)和分别为Xi和中位置p的像素值，|Mc|为光谱编码器的掩码区域Mc中像素总数，Xc(p)和分别为Xi和中位置p的光谱向量；

LSSC根据下式得到；

，

式中，sim(∙,∙)为计算余弦相似度、exp(∙)为指数函数、τ为温度超参数，eq,s、eq,c分别为遥感影像数据集D中第q张图像块对应的空间特征和光谱特征。

5.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法，其特征在于，S51具体为，在空间编码分支中任选一层Q矩阵、V矩阵和K矩阵，引入LoRA模块，在光谱编码分支中任选一层Q矩阵、V矩阵和K矩阵，引入LoRA模块。

6.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法，其特征在于，S52中，检测数据流的数据分布是否改变具体为；

将数据流按序分为多个批次，计算每个批次分类损失值，并用滑窗对批次采样，若当前第t个批次满足下式，则判断第t个批次的数据分布改变；