利索能及
我要发布
收藏
专利号: 202110260146X
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于频率自适应的图像‑文本匹配方法,其特征在于,包括:获取数据,所述数据包括图像以及与图像匹配的文本;

使用获取的数据训练基于频率自适应和迭代注意力交互的图像‑文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。

2.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述图像的初始表征,具体计算步骤为:通过卷积神经网络得到图像的每个区域特征;

对所述的每个区域特征进行线性变换;

对线性变换后的每个区域特征进行归一化处理,得到每个区域归一化处理后的区域特征,组成图像的初始表征。

3.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述文本的初始表征,具体计算步骤为:使用one‑hot将文本中的每个单词编码;

计算每个单词的嵌入表示;

总结来自两个方向的上下文信息;

采用平均值的方式得到带有上下文信息增强的词特征,组成文本的初始表征。

4.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述计算带有全局上下文增强语义关系的图像区域集合,具体步骤为:对于图像构建一个无向图;

为无向图中的每个节点自适应的聚合所有关联节点的高低频信息,得到语义推理后的节点,组成带有全局上下文增强语义关系的图像区域集合。

5.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为:选择图像和文本中的任一项作为查询模态,另一项作为另一模态;

使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征;

若图像为查询模态,则将查询模态的全局特征作为语义增强的图像全局特征,另一模态的全局特征作为语义增强的文本全局特征;若文本为查询模态,则将查询模态的全局特征作为语义增强的文本全局特征,另一模态的全局特征作为语义增强的图像全局特征。

6.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述损失函数为三元组损失函数。

7.如权利要求5所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述注意力交互函数在另一模态的引导下,对查询模态不同片段的关注度不同。

8.一种基于频率自适应的图像‑文本匹配系统,其特征在于,包括:数据获取模块,其被配置为:获取数据,所述数据包括图像以及与图像匹配的文本;

模型训练模块,其被配置为:使用获取的数据训练基于频率自适应和迭代注意力交互的图像‑文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。

9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑7任一项方法的步骤。

10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑7任一项方法的步骤。