利索能及
我要发布
收藏
专利号: 2024100081939
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种局部特征与全局特征融合的跨模态遥感图文检索方法,其特征在于,具体包括以下步骤:Step1,使用包含多层次视觉注意力机制的卷积神经网络对输入图像进行全局特征提取,得到全局特征向量 ,其中 为包含多层次视觉注意力机制的卷积神经网络,为输入图像;

Step2,采用目标检测网络对遥感图像中的目标进行识别、并获取局部目标 ,其中, 为输入图像的第j类的局部目标,D为目标检测网络;然后通过图神经网络对检测到的目标区域进行深度学习,得到局部特征向量 ,其中,G为图神经网络特征提取器;

Step3,先将全局特征向量 与局部特征向量 进行内部相似性计算,然后通过交叉注意力机制CA对处理后的全局特征向量 与局部特征向量 进行动态加权融合,得到完整的图像特征向量 ;具体过程如下:Step3‑1,全局特征向量与局部特征向量进行内部相似性计算,得到更细粒度的特征向量 与 : 其中,MA为多头注意力机制, 和 为原始全局向量与局部向量;

Step3‑2,通过交叉注意力机制CA,对处理后的全局特征向量与局部特征向量进行动态加权融合,进一步得到处理后的全局特征向量 与局部特征向量 : ,Step3‑3,使用局部特征生成掩码来过滤全局特征,同时使用全局特征直接补充局部特征: 其中,为动态可更新的权重;

Step3‑4,将全局特征与局部特征进行特征叠加,得到混合视觉信息: ,Step3‑5,对混合视觉信息进行线性变换得到可学习的动态权重,并进一步更新融合后的特 征 ,最 终得 到全 局 特征 向量 与 局部 特 征向 量融 合 的视 觉向 量 :其中,和 为权重矩阵;

Step4,先使用递归神经网络对输入文本 进行建模,然后通过多层感知机得到文本特征向量 ;

Step5,计算加权融合后图像特征与文本特征之间的相似性度量,按照从大到小顺序对检索结果进行排序;

Step6,利用候选信息进行反向检索并得到最终检索结果。

2.根据权利要求1所述的局部特征与全局特征融合的跨模态遥感图文检索方法,其特征在于,Step4具体过程如下:将输入文本 进行单词级别的嵌入,形成单词向量序列 ,随后将该序列输入递归神经网络,实现对文本的逐层处理: ,其中, 跟 分别表示前向与后向递归神经网络, 表示第i层的隐藏状态;

通过多层感知机形成文本特征向量如下: ,其中,T表示生成后的文本特征向量,MLP表示多层感知机。

3.根据权利要求2所述的局部特征与全局特征融合的跨模态遥感图文检索方法,其特征在于,Step5中按照从大到小顺序对检索结果进行排序如下:,其中,为最小边际, 为配

对图像文本对, 为未配对图像文本对。

4.根据权利要求3所述的局部特征与全局特征融合的跨模态遥感图文检索方法,其特征在于,Step6中,进行图像到文本的查询时,具体如下:根据与查询图像最相似的k个文本计算出查询分量 : ,其中, 为排名系数, 为候选文本排名;

使用得到的候选文本进行反向搜索,如果查询图像位于L个最邻近的图像中,计算出查询分量 : ,其中 为候选图像排名,若不在L个最邻近的图像中,则查询分量为0;

定义显著性分量 来量化模型的相似性程度,显著性分量 表达式如下:,对于反向检索中的候选文本 ,与图像 的相似性比例越高,其确定度就越高。