1.一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,包括以下步骤;
S1,获取遥感影像数据集D,D={X1,X2,…,Xi,…,XN},Xi为D中第i个经过类别标注的图像块, ,C为光谱通道数,P×P为图像块尺寸,N为图像块总数;
S2,构造一双分支编解码网络,包括空‑谱双分支编码器、混合连接编码器HCE和混合连接解码器HCD,构造方法包括S21 S23;
~
S21,构造空‑谱双分支编码器,包括空间编码器和光谱编码器;
所述空间编码器用于对Xi进行随机掩码和空间编码,得到空间特征ei,s,所述光谱编码器用于对Xi进行随机掩码和光谱编码,得到光谱特征ei,c;
S22,构造混合连接编码器HCE;
获取两个结构相同的Transformer编码器,均由Z个Transformer层堆叠而成;
将一Transformer编码器输入端连接空间编码器的输出,其中第z个Transformer层标记为Esz,另一Transformer编码器输入端连接光谱编码器的输出,其中第z个Transformer层标记为Ecz,1≤z≤Z;
将Esz中多头自注意力层修改为第一混合连接注意力模块HCA1,得到空间编码分支,将Ecz中多头自注意力层修改为第二混合连接注意力模块HCA2,得到光谱编码分支,两编码分支构成混合连接编码器;
所述HCA1的输出特征HCA(c,s)、HCA2的输出特征HCA(s,c)分别根据下式得到;
HCA(c,s)=Attention(Qc,Kc,Vc)+Attention(Qc,Ks,Vs),HCA(s,c)=Attention(Qs,Ks,Vs)+Attention(Qs,Kc,Vc),式中,Attention(∙)为自注意力操作,Qc、Kc、Vc分别为Ecz中的Q矩阵、K矩阵和V矩阵,Qs、Ks、Vs分别为Esz中的Q矩阵、K矩阵和V矩阵;
S23,构造混合连接解码器HCD,包括空间解码分支和光谱解码分支,空间解码分支用于对空间编码器的掩码区域进行预测,得到空间重建图 ,所述光谱解码分支用于对光谱编码器的掩码区域进行预测,得到光谱重建图 ;
S3,构造双分支编解码网络的损失函数L,用遥感影像数据集D以最小化L训练至收敛,得到第一基础模型并冻结其参数;
S4,删除第一基础模型中HCD,将HCE两路输出相加后送入一分类器,得到第二基础模型,所述第二基础模型用于输入图像块,输出其对应的分类结果;
S5,第二基础模型的在线增量学习;
S51,在第二基础模型的空间编码分支和光谱编码分支各引入一LoRA模块;
S52,用第二基础模型在线检测由图像块构成的数据流,用数据流基于LoRA方法更新LoRA模块参数,并检测数据流的数据分布是否改变;
S53,若改变,将LoRA模块参数并入第二基础模型,并重复S51 S52,否则不处理。
~
2.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,S23中,混合连接解码器HCD的结构为;
获取两个结构相同的Transformer解码器,均由Z个Transformer层堆叠而成;
将一Transformer解码器输入端连接空间编码分支的输出,其中第z个Transformer层标记为Dsz,另一Transformer解码器输入端连接光谱编码分支的输出,其中第z个Transformer层标记为Dcz;
将Dsz中多头自注意力层修改为第三混合连接注意力模块HCA3,得到空间解码分支,将Dcz中多头自注意力层修改为第四混合连接注意力模块HCA4,得到光谱解码分支,两解码分支构成混合连接解码器,且空间解码器用于对空间编码器的掩码区域进行预测,得到空间重建图 ,光谱解码器用于对光谱编码器的掩码区域进行预测,得到光谱重建图 ;
HCA3的输出特征HCA(sD,sE)、HCA4的输出特征HCA(cD,cE)分别根据下式得到;
HCA(sD,sE)=Attention(QsD,KsD,VsD)+Attention(QsD,KsE,VsE),HCA(cD,cE)=Attention(QcD,KcD,VcD)+Attention(QcD,KcE,VcE),式中,QsD、KsD、VsD为分别为Dsz中的Q矩阵、K矩阵和V矩阵,KsE、VsE分别为Esz中的Q矩阵、K矩阵;QcD、KcD、VcD为分别为Dcz中的Q矩阵、K矩阵和V矩阵,KcE、VcE分别为Ecz中的Q矩阵、K矩阵。
3.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,S3中,损失函数L根据下式计算;
,
、 分别为空间重建损失和光谱重建损失,LSSC为空间特征和光谱特征间的对称InfoNCE损失,λ为LSSC的权重。
4.根据权利要求3所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,,
,
式中,|Ms|为空间编码器的掩码区域Ms中像素总数,Xs(p)和 分别为Xi和 中位置p的像素值,|Mc|为光谱编码器的掩码区域Mc中像素总数,Xc(p)和 分别为Xi和 中位置p的光谱向量;
LSSC根据下式得到;
,
式中,sim(∙,∙)为计算余弦相似度、exp(∙)为指数函数、τ为温度超参数,eq,s、eq,c分别为遥感影像数据集D中第q张图像块对应的空间特征和光谱特征。
5.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,S51具体为,在空间编码分支中任选一层Q矩阵、V矩阵和K矩阵,引入LoRA模块,在光谱编码分支中任选一层Q矩阵、V矩阵和K矩阵,引入LoRA模块。
6.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,S52中,检测数据流的数据分布是否改变具体为;
将数据流按序分为多个批次,计算每个批次分类损失值,并用滑窗对批次采样,若当前第t个批次满足下式,则判断第t个批次的数据分布改变;
,
式中,k为滑窗大小,lj为数据流第j个批次的分类损失值。
7.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,所述空间编码器的包括依次连接的空间掩码层、第一归一化层、二维卷积层、注意力层、第一相加层、第二归一化层、多层感知机、第二相加层,且空间掩码层的输出与第一相加层跳跃连接、第一相加层的输出与第二相加层的输出跳跃连接;
所述空间掩码层用于随机对Xi中像素施加C×1×1的掩码,得到第一空间特征 ,并仅保留未掩码区域的标注;
依次经第一归一化层、二维卷积层、注意力层得到第二空间特征 ,所述 经第一相加层与 逐元素相加得到第三空间特征 ;
所述 依次经第二归一化层、多层感知机得到第四空间特征 ;
所述 经第二相加层与 逐元素相加得到空间特征ei,s。
8.根据权利要求7所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,所述注意力层为自注意力层或空间注意力层;
空间注意力层根据下式进行空间注意力操作;
,
式中,Attention1(Q,K,V)为空间注意力操作,Softmax(∙)为Softmax函数,Q、K、V为二维卷积层的输出映射得到的Q矩阵、K矩阵和V矩阵;dk为缩放因子。
9.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,所述光谱编码器的包括依次连接的光谱掩码层、第一归一化层、线性投影层、注意力层、第一相加层、第二归一化层、多层感知机、第二相加层,且空间掩码层的输出与第一相加层跳跃连接、第一相加层的输出与第二相加层的输出跳跃连接;
所述光谱掩码层,用于随机对Xi的波段施加1×P×P的掩码,得到第一光谱特征 ,并仅保留未掩码的波段信息;
依次经第一归一化层、线性投影层、注意力层得到第二光谱特征 ,所述 经第一相加层与 逐元素相加得到第三光谱特征 ;
所述 依次经第二归一化层、多层感知机得到第四光谱特征 ;
所述 经第二相加层与 元素相加得到光谱特征ei,c。
10.根据权利要求1所述的一种基于ViT的遥感影像大模型的在线增量学习方法,其特征在于,LoRA模块的优化方法为;
Sa1,将LoRA模块分解为2个低秩矩阵A和B;
Sa2,维护一容量为4的硬缓冲,用于存储当前分类损失值最高的四个图像块;
A B
Sa3,根据下式计算低秩矩阵A和B的参数重要性Ω 和Ω ;
,
,
式中,xk为硬缓冲内第k个图像块,1≤k≤4,θ为当前第二基础模型的网络参数,p(xk|θ)为当前第二基础模型对xk的分类结果、∇为梯度运算,∘为逐元素乘积操作, 为A的权重A A B矩阵W 中第i行j列元素, 为Ω 第i行j列元素, 为B的权重矩阵W第i行j列元素,B为Ω 第i行j列元素;
Sa4,根据下式计算当前LoRA模块的正则化值r和正则化项LLoRA;
,
,
式中,R为当前所有LoRA模块的正则化值构成的集合,λ为正则化系数;
Sa5,构造LoRA模块的损失函数L1,并以最小化L1优化LoRA模块的参数;
;
Lcls(,∙,)为计算分类损失,F(X;θ)为当前第二基础模型对一批次图像块的预测分类结果,Y为该批次样本的真实类别标签,F(XB;θ)为当前第二基础模型对硬缓冲内样本的分类结果,YB为硬缓冲内图像块的真实类别标签。