利索能及
我要发布
收藏
专利号: 2021110216290
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于全局信息和位置嵌入的场景图生成方法,其特征在于,包括如下步骤:步骤 1:基于数据集中的图像,由Faster‑RCNN目标检测模型得到高维视觉特征图和每个实体信息并且对目标位置编码,所述实体信息包括目标视觉特征、目标边界框坐标、类别语义编码信息;

步骤 2:将步骤1中高维视觉特征图和实体信息拼接的特征通过基于自注意力机制的网络输出残差连接目标特征;

步骤 3:对步骤2得到的目标特征利用基于注意力的LSTM网络得到目标上下文信息,利用LSTM解码获取目标分类矩阵;

步骤 4:构建边上下文生成的解码信息,以步骤3中目标分类矩阵为边上下文解码的输入,构建目标特征到边连接特征的主谓宾关系生成融合方式,所述生成融合方式为非线性的的主宾融合方式;

步骤 5:根据步骤4中融合方式,得到关系概率分布向量,根据最大分数概率对应的索引,从索引与谓词的一一对应的列表中得到关系谓词,并可视化得到最终场景图表示。

2.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤1中由Faster‑RCNN目标检测模型得到高维视觉特征图和每个实体信息的具体步骤为:

步骤 1.1:对于整个VG视觉基因组数据集,预处理之后,利用Faster‑RCNN模型作为目标检测器,目标检测器的基本网络用VGG16卷积网络,通过VGG16将原始图像映射为高维视觉特征图;

步骤 1.2:由Faster‑RCNN模型中的RPN网络生成实体信息;

步骤1.3:对边界框进行显示计算得到位置编码。

3.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤2具体方法为:

步骤 2.1:将步骤1中映射的高维视觉特征图进行自适应平均池化得到可对齐融合的视觉特征图;

步骤 2.2:对步骤2.1中可对齐融合的视觉特征图和实体信息采用拼接的融合方式,得到融合特征,并将其作为自注意力机制网络的输入,并对目标类别进行语义词向量的转换;

步骤 2.3:构建自注意力机制网络结构,用三个全连接层分别计算融合特征,得到经过自注意力机制网络计算后的残差连接目标特征,其中输出维度为输入维度的二倍,便于残差连接时的维度对齐。

4.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤3具体方法为:

步骤 3.1:对于步骤2中得到的残差连接目标特征利用双向LSTM提取上下文信息,对于每个节点特征其中融入了其他各目标节点的信息特征;

步骤 3.2:对于隐层状态在解码前引入注意力机制计算方式,构建注意力机制的可学习参数,得到目标的相关概率度量;

步骤 3.3:用LSTM解码得到目标分类矩阵,并将其作为边上下文解码的输入。

5.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤4具体方法为:

步骤 4.1:将目标视觉特征、残差连接目标特征、目标分类矩阵进行融合得到全局信息,通过双向LSTM解码得到边上下文特征;

步骤 4.2:构建非线性的的主宾融合方式,得到关系度量分数。

6.根据权利要求1所述的基于全局信息和位置嵌入的场景图生成方法,其特征在于,所述步骤5具体方法为:

步骤 5.1:步骤 4中的目标图关系索引出其代表的主宾类别,将图关系以主语‑谓语‑宾语的格式保存为txt文件;

步骤 5.2:将步骤1中的目标边界框坐标映射到原始图像中,对目标在原图像中类别和区域标记进行可视化。