利索能及
我要发布
收藏
专利号: 2021116632196
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于分层特征聚合的图像‑文本匹配方法,其特征在于,包括:

对图像和文本经预处理后得到图像场景图和文本场景图;

对图像场景图和文本场景图分别进行分层特征聚合,得到每个对象的属性及对象间的关系,以此重构得到图像模态的对象特征和文本模态的对象特征;

根据图像模态的对象特征和文本模态的对象特征进行多模态特征融合,将融合特征映射至公共空间,在公共空间中测量不同模态间的距离,根据距离进行图像和文本的匹配;

重构图像模态的对象特征的过程包括:采用属性聚合器对图像场景图进行分层特征聚合,对图像场景图中每个对象的属性进行平均池操作,继而通过全连接网络得到对象的属性特征,将对象的属性特征再次通过全连接网络得到第二属性特征,根据对象的属性特征和第二属性特征进行对象特征的更新;

具体地,属性聚合器为:首先,为每个对象的属性添加一个平均池操作,然后将该属性提供给一个全连接网络以获得对象的属性特征 ;同时,将对象的属性特征输入到另一个全连接网络中获取对象的属性特征 ;对象特征更新为 。

2.如权利要求1所述的一种基于分层特征聚合的图像‑文本匹配方法,其特征在于,重构文本模态的对象特征的过程包括:获取对象的关系信息,根据对象的关系信息得到对象的关系特征,根据对象的关系信息和对象的关系特征得到对象特征。

3.如权利要求1所述的一种基于分层特征聚合的图像‑文本匹配方法,其特征在于,多模态特征融合的过程包括:采用Transformer模型将图像模态的对象特征和文本模态的全局特征进行多模态特征融合后,得到图像融合特征。

4.如权利要求3所述的一种基于分层特征聚合的图像‑文本匹配方法,其特征在于,文本模态的全局特征为:获取文本中每个单词的嵌入向量表示,根据嵌入向量表示得到句子上下文表示,根据句子上下文表示得到全局特征。

5.如权利要求1所述的一种基于分层特征聚合的图像‑文本匹配方法,其特征在于,多模态特征融合的过程包括:采用Transformer模型将文本模态的对象特征和图像模态的全局特征进行多模态特征融合后,得到文本融合特征。

6.如权利要求5所述的一种基于分层特征聚合的图像‑文本匹配方法,其特征在于,图像模态的全局特征为:提取图像的目标对象特征,对目标对象特征进行线性变换后,映射到多维空间中,继而对目标对象特征使用全局平均池得到全局特征。

7.一种基于分层特征聚合的图像‑文本匹配系统,其特征在于,包括:

预处理模块,被配置为对图像和文本经预处理后得到图像场景图和文本场景图;

分层特征聚合模块,被配置为对图像场景图和文本场景图分别进行分层特征聚合,得到每个对象的属性及对象间的关系,以此重构得到图像模态的对象特征和文本模态的对象特征;

重构图像模态的对象特征的过程包括:采用属性聚合器对图像场景图进行分层特征聚合,对图像场景图中每个对象的属性进行平均池操作,继而通过全连接网络得到对象的属性特征,将对象的属性特征再次通过全连接网络得到第二属性特征,根据对象的属性特征和第二属性特征进行对象特征的更新;

具体地,属性聚合器为:首先,为每个对象的属性添加一个平均池操作,然后将该属性提供给一个全连接网络以获得对象的属性特征 ;同时,将对象的属性特征输入到另一个全连接网络中获取对象的属性特征 ;对象特征更新为 ;

跨模态特征融合模块,被配置为根据图像模态的对象特征和文本模态的对象特征进行多模态特征融合,将融合特征映射至公共空间,在公共空间中测量不同模态间的距离,根据距离进行图像和文本的匹配。

8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑6任一项所述的方法。

9.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑6任一项所述的方法。