1.一种基于频率自适应的图像‑文本匹配方法,其特征在于,包括:获取数据,所述数据包括图像以及与图像匹配的文本;
使用获取的数据训练基于频率自适应和迭代注意力交互的图像‑文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化;
所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为:选择图像和文本中的任一项作为查询模态,另一项作为另一模态;使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征;若图像为查询模态,则将查询模态的全局特征作为语义增强的图像全局特征,另一模态的全局特征作为语义增强的文本全局特征;若文本为查询模态,则将查询模态的全局特征作为语义增强的文本全局特征,另一模态的全局特征作为语义增强的图像全局特征;
其中,注意力交互函数Z=A(X,Y)具体定义如下:
T a T
H=tanh(UXX+(UYY)1+b1)
a
其中,X、Y表示两输入模态的片段级特征集合,UX、UY、b、ua作为注意力交互函数的参数;
1代表所有元素都为1的特征向量; 表示在Y的引导下对第k个片段的特征Xk的关注度;
所述计算带有全局上下文增强语义关系的图像区域集合,具体步骤为:对于图像构建一个无向图;为无向图中的每个节点自适应的聚合所有关联节点的高低频信息,得到语义推理后的节点,组成带有全局上下文增强语义关系的图像区域集合;其中,自适应的学习到用Wij表示的每个节点与它相邻节点的高低频比例;为每个节点vi聚合与它相邻的各个节点的高低频信息,在这个过程中,节点vi通过加入所有关联节点的信息,推理出增强后的节点v′i:其中,φ为激活函数,l为图卷积的层数,表示节点vi在第l层的输出,v′i为节点vi在最T T后一层的输出,ε是一个超参数,Wij=tanh(g|vi||vj|),||作为节点的拼接操作,g是用来映射的一个共享的卷积核,vj表示节点vi的邻居节点,vi为归一化处理后的区域特征。
2.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述图像的初始表征,具体计算步骤为:通过卷积神经网络得到图像的每个区域特征;
对所述的每个区域特征进行线性变换;
对线性变换后的每个区域特征进行归一化处理,得到每个区域归一化处理后的区域特征,组成图像的初始表征。
3.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述文本的初始表征,具体计算步骤为:使用one‑hot将文本中的每个单词编码;
计算每个单词的嵌入表示;
总结来自两个方向的上下文信息;
采用平均值的方式得到带有上下文信息增强的词特征,组成文本的初始表征。
4.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述损失函数为三元组损失函数。
5.如权利要求1所述的一种基于频率自适应的图像‑文本匹配方法,其特征在于,所述注意力交互函数在另一模态的引导下,对查询模态不同片段的关注度不同。
6.一种基于频率自适应的图像‑文本匹配系统,其特征在于,包括:数据获取模块,其被配置为:获取数据,所述数据包括图像以及与图像匹配的文本;
模型训练模块,其被配置为:使用获取的数据训练基于频率自适应和迭代注意力交互的图像‑文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化;
所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为:选择图像和文本中的任一项作为查询模态,另一项作为另一模态;使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征;若图像为查询模态,则将查询模态的全局特征作为语义增强的图像全局特征,另一模态的全局特征作为语义增强的文本全局特征;若文本为查询模态,则将查询模态的全局特征作为语义增强的文本全局特征,另一模态的全局特征作为语义增强的图像全局特征;
其中,注意力交互函数Z=A(X,Y)具体定义如下:
T a T
H=tanh(UXX+(UYY)1+b1)
a
其中,X、Y表示两输入模态的片段级特征集合,UX、UY、b、ua作为注意力交互函数的参数;
1代表所有元素都为1的特征向量; 表示在Y的引导下对第k个片段的特征Xk的关注度;
所述计算带有全局上下文增强语义关系的图像区域集合,具体步骤为:对于图像构建一个无向图;为无向图中的每个节点自适应的聚合所有关联节点的高低频信息,得到语义推理后的节点,组成带有全局上下文增强语义关系的图像区域集合;其中,自适应的学习到用Wij表示的每个节点与它相邻节点的高低频比例;为每个节点vi聚合与它相邻的各个节点的高低频信息,在这个过程中,节点vi通过加入所有关联节点的信息,推理出增强后的节点v′i:其中,φ为激活函数,l为图卷积的层数,表示节点vi在第l层的输出,v′i为节点vi在最T T后一层的输出,ε是一个超参数,Wij=tanh(g|vi||vj|),||作为节点的拼接操作,g是用来映射的一个共享的卷积核,vj表示节点vi的邻居节点,vi为归一化处理后的区域特征。
7.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑5任一项方法的步骤。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑5任一项方法的步骤。