利索能及
我要发布
收藏
专利号: 2023115202715
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种结合图像描述和文本生成图像的视觉语言导航方法,其特征在于:该方法包括以下步骤:

S1:获取视觉语言导航任务的自然语言目标指令以及当前场景所处位置的视觉图像;

S2:基于S1获得的全景视觉图像,通过场景描述模块生成描述了当前场景所处位置的所属房间类型、核心物品对象、核心物品对象间关系以及核心场景布局的详尽自然语言图像描述;

S3:将S2中生成的详尽自然语言图像描述作为文本生成图像模型的输入,最终生成与所描述场景有着类似核心物品对象以及核心场景布局的相似场景;

S4:将S1中的视觉图像以及S3中基于当前场景生成的相似场景图像分别通过多层Transformer结构提取视觉特征,同时将S1中的自然语言目标指令通过文本编码器得到目标指令编码,随后结合目标指令编码将提取得到的两种视觉特征通过细尺度跨模态编码器进行编码,最终生成当前场景编码和相似场景编码;

S5:将S4中生成的当前场景编码和相似场景编码通过交叉注意力层生成视觉增强场景融合特征,并将其注入到线性前馈网络,再通过Softmax激活函数基于当前所有可航点生成对下一步执行动作的视觉增强动作预测,将视觉增强动作预测和基准专家动作进行交叉熵运算,生成增强动作损失,即通过监督视觉增强动作预测来指导视觉增强场景融合特征的学习,通过公式描述为:其中,t表示当前时间步骤, 表示视觉增强场景融合特征,Cross–Attn表示交叉注意力层, 表示当前场景编码, 表示相似场景编码, 表示视觉增强动作预测,FFN表示线性前馈网络, 表示增强动作预测损失,CrossEntropy表示交叉熵损失函数,表示基准专家动作;

S6:更进一步地,在每一时间步骤,通过线性前馈网络和Sigmoid激活函数聚合S4中生成的当前场景编码与S5中生成的视觉增强场景融合特征,为动态融合S5中的视觉增强动作预测和基于当前场景所作出的动作预测生成动态融合权重:其中,σt表示可学习的动态融合权重,基于此,最终的导航决策表示为:

其中, 表示综合考虑了当前真实场景和对应相似场景的融合动作预测,最后将融合动作预测与基准专家动作进行交叉熵计算:

其中, 表示融合动作预测损失,通过监督融合动作预测来指导整个决策过程的学习。

2.根据权利要求1所述的一种结合图像描述和文本生成图像的视觉语言导航方法,其特征在于:所述S2中,通过场景描述模块生成详尽自然语言图像描述的具体流程为:首先将获得的当前场景所处位置的全景图像通过均匀地调整智能体视角离散化为36张第一人称视觉图像,随后对于每一张视觉图像,使用预训练好的基于多模态预训练模型CLIP或者BILP‑2总体概述当前图像,生成一条描述了当前所属房间类型以及图像拥有的核心物品对象的总体概述;同时,基于开源数据集Visual Genome Dataset,以“属性‑对象”两元组和“主体‑谓词‑客体”三元组的格式对特定场景,包括室内居家场景,建立场景描述语料库,再将当前图像以左上、右上、左下、右下以及公共中心的图片位置切割为五张子图,基于多模态预训练模型CLIP,使用其文本编码器CLIP‑T对整个场景描述语料库进行编码作为查找关键字,再使用其图像编码器CLIP‑I分别对每一张切割后的子图进行编码并将其作为询问,查找在场景描述语料库中与之余弦相似度最高即匹配度最高的关键字,将该关键字对应的场景描述作为当前子图的描述,形成一条描述了子图中核心物品对象或核心物品对象间关系的细节描述;综上,最终能够获得一条总体概述和五条细节描述,将它们以先总体概述再细节描述的顺序,并结合细节描述的对应位置关系组合生成详尽自然语言图像描述。

3.根据权利要求1所述的一种结合图像描述和文本生成图像的视觉语言导航方法,其特征在于:所述S3中,文本生成图像模型是指多模态机器学习领域中文本生成图像任务的先进模型,包括Stable Diffusion。

4.根据权利要求1所述的一种结合图像描述和文本生成图像的视觉语言导航方法,其特征在于:所述S4中,文本编码器将每个单词进行编码,表示单词相对于整个句子的位置编码和单词类型编码,最后将位置编码和单词类型编码一起注入到多层Transformer结构中。

5.根据权利要求1所述的一种结合图像描述和文本生成图像的视觉语言导航方法,其特征在于:所述S4中,细尺度跨模态编码器包括图像特征提取网络,融合目标指令语言特征以及视觉图像特征的交叉注意力层、自注意力层和线性前馈网络;其中,图像特征提取网络包括ResNet、ViT和CLIP。