1.一种跨模态检索方法,其特征在于,所述方法包括:
获取检索语句和被检索图像;
基于第一特征提取模型,在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征;
基于第二特征提取模型,在所述检索语句中提取短语特征;
基于注意力模型,采用所述包含目标对象的感兴趣区域的图像特征和所述短语特征,计算所述感兴趣区域对应的图像特征值;
基于相似度计算模型,采用所述短语特征和所述图像特征值,计算所述短语特征和所述包含目标对象的感兴趣区域的图像特征的相似度,并根据所述相似度输出检索结果。
2.根据权利要求1所述的方法,其特征在于,所述第一特征提取模型包括第一卷积网络、候选区域生成网络RPN、感兴趣区域池化层和分类层;
所述基于第一特征提取模型,在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征,包括:将所述被检索图像输入所述第一卷积网络,得到所述被检索图像的特征图;
将所述被检索图像的特征图输入所述RPN,得到包含对象的感兴趣区域在所述被检索图像中的位置信息;
将所述被检索图像的特征图和所述包含对象的感兴趣区域在所述被检索图像中的位置信息输入所述感兴趣区域池化层,得到包含对象的感兴趣区域的特征图;
将所述包含对象的感兴趣区域的特征图输入所述分类层,得到所述包含对象的感兴趣区域中的对象的类别;
对感兴趣区域所包含的对象进行筛选,筛选出所述包含目标对象的感兴趣区域,并得到所述包含目标对象的感兴趣区域在所述被检索图像中的位置信息;
基于所述包含目标对象的所述感兴趣区域的在所述被检索图像中的位置信息,确定所述包含目标对象的感兴趣区域的图像特征。
3.根据权利要求1所述的方法,其特征在于,所述第二特征提取模型包括嵌入层和第二卷积网络;
所述基于第二特征提取模型,在所述检索语句中提取短语特征,包括:
通过所述嵌入层,将所述检索语句中的每个字嵌入到特征空间,得到所述检索语句对应的向量矩阵,所述向量矩阵包括每个字对应的向量;
将所述向量矩阵输入所述第二卷积网络,得到所述短语特征。
4.根据权利要求1所述的方法,其特征在于,所述注意力模型包括全连接层、柔性最大值激活函数softmax层和特征值计算模型;
所述基于注意力模型,采用所述感兴趣区域的图像特征和所述短语特征,计算所述感兴趣区域对应的图像特征值,包括:将所述感兴趣区域的图像特征和所述短语 特征输入所述全连接层,得到中间向量;
将所述中间向量输入所述softmax层,得到所述感兴趣区域的各个图像特征对应的注意力权重;
将所述感兴趣区域的图像特征和所述注意力权重输入至所述特征值计算模型,得到所述图像特征值。
5.根据权利要求4所述的方法,其特征在于,所述特征值计算模型采用以下公式得到所述图像特征值:其中, 为第i个感兴趣区域的图像特征值,N为所述第i个感兴趣区域中的图像特征的数量,an,j为第j个短语特征对应的所述第i个感兴趣区域的第n个图像特征的注意力权重,为所述第i个感兴趣区域的第n个图像特征。
6.根据权利要求1所述的方法,其特征在于,所述相似度计算模型包括映射层和相似度计算层;
所述基于所述图像特征值,计算所述短语特征和所述感兴趣区域的图像特征的相似度,包括:将所述短语特征输入所述映射层以将所述短语特征映射到图像特征空间,得到映射后的所述短语特征,所述图像特征空间为所述图像特征值所在的特征空间;
将所述映射后的所述短语特征和所述图像特征值输入所述相似度计算层,得到所述短语特征和所述感兴趣区域的图像特征的相似度。
7.根据权利要求6所述的方法,其特征在于,所述映射层采用以下公式将所述短语特征映射到所述图像特征空间:其中, 为映射后的第j个短语特征,pj为第j个短语特征,WS为映射层参数,bs为偏置项。
8.根据权利要求7所述的方法,其特征在于,所述相似度计算层采用以下公式计算映射后的所述短语特征和所述感兴趣区域的图像特征的相似度:其中,Vi为第i个感兴趣区域的图像特征,pj为第j个短语特征,sim(Vi,pj)为短语特征和所述第i个感兴趣区域的图像特征的相似度, 为第i个感兴趣区域的图像特征值, 为映射后的第j个短语特征,·为点积。
9.根据权利要求1所述的方法,其特征在于,所述根据所述相似度输出检索结果,包括以下步骤中的至少一个:当所述检索语句中包括一个短语特征时,将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出;
当所述检索语句中包括至少两个短语特征时,将平均相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出,所述平均相似度为单个感兴趣区域的图像特征与所述至少两个短语特征的相似度的平均值。
10.根据权利要求1‑9任一项所述的方法,其特征在于,所述方法还包括:获取训练数据集,所述训练数据集包括样本图像和样本检索语句,每个所述样本图像包括至少一个目标对象,每个所述目标对象对应至少一个所述样本检索语句;
采用所述训练数据集,对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。
11.根据权利要求10所述的方法,其特征在于,所述采用所述训练数据集,对所述第一特征提取模型、第二特征提取模型、所述注意力模型、所述相似度计算模型进行训练,包括:将所述样本图像和所述样本检索语句作为训练输入,基于最大间隔max‑margin损失函数,对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。
12.一种跨模态检索装置,其特征在于,所述装置包括:
获取模块,用于获取检索语句和被检索图像;
图像特征提取模块,用于基于第一特征提取模型,在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征;
短语特征提取模块,用于基于第二特征提取模型,在所述检索语句中提取短语特征;
特征值计算模块,用于基于注意力模型,采用所述包含目标对象的感兴趣区域的图像特征和所述短语特征,计算所述感兴趣区域对应的图像特征值;
检索模块,用于基于相似度计算模型,采用所述短语特征和所述图像特征值,计算所述短语特征和所述包含目标对象的感兴趣区域的图像特征的相似度,并根据所述相似度输出检索结果。
13.根据权利要求12所述的装置,其特征在于,所述第一特征提取模型包括第一卷积网络、候选区域生成网络RPN、感兴趣区域池化层和分类层;
所述图像特征提取模块用于,将所述被检索图像输入所述第一卷积网络,得到所述被检索图像的特征图;将所述被检索图像的特征图输入所述RPN,得到包含对象的感兴趣区域在所述被检索图像中的位置信息;将所述被检索图像的特征图和所述包含对象的感兴趣区域在所述被检索图像中的位置信息输入所述感兴趣区域池化层,得到包含对象的感兴趣区域的特征图;将所述包含对象的感兴趣区域的特征图输入所述分类层,得到所述包含对象的感兴趣区域中的对象的类别;对感兴趣区域所包含的对象进行筛选,筛选出所述包含目标对象的感兴趣区域,并得到所述包含目标对象的感兴趣区域在所述被检索图像中的位置信息;基于所述包含目标对象的所述感兴趣区域的在所述被检索图像中的位置信息,确定所述包含目标对象的感兴趣区域的图像特征。
14.根据权利要求12所述的装置,其特征在于,所述第二特征提取模型包括嵌入层和第二卷积网络;
所述短语特征提取模块用于通过所述嵌入层,将所述检索语句中的每个字嵌入到特征空间,得到所述检索语句对应的向量矩阵,所述向量矩阵包括每个字对应的向量;将所述向量矩阵输入所述第二卷积网络,得到所述短语特征。
15.根据权利要求12所述的装置,其特征在于,所述注意力模型包括全连接层、柔性最大值激活函数softmax层和特征值计算模型;
所述特征值计算模块用于将所述感兴趣区域的图像特征和所述短语特征输入所述全连接层,得到中间向量;将所述中间向量输入所述softmax层,得到所述感兴趣区域的各个图像特征对应的注意力权重;将所述感兴趣区域的图像特征和所述注意力权重输入至所述特征值计算模型,得到所述图像特征值。
16.根据权利要求15所述的装置,其特征在于,所述特征值计算模型采用以下公式得到所述图像特征值:其中, 为第i个感兴趣区域的图像特征值,N为所述第i个感兴趣区域中的图像特征的数量,an,j为第j个短语特征对应的所述第i个感兴趣区域的第n个图像特征的注意力权重,为所述第i个感兴趣区域的第n个图像特征。
17.根据权利要求12所述的装置,其特征在于,所述相似度计算模型包括映射层和相似度计算层;
所述检索模块用于将所述短语特征输入所述映射层以将所述短语特征映射到图像特征空间,得到映射后的所述短语特征,所述图像特征空间为所述图像特征值所在的特征空间;将所述映射后的所述短语特征和所述图像特征值输入所述相似度计算层,得到所述短语特征和所述感兴趣区域的图像特征的相似度。
18.根据权利要求17所述的装置,其特征在于,所述映射层采用以下公式将所述短语特征映射到所述图像特征空间:其中, 为映射后的第j个短语特征,pj为第j个短语特征,WS为映射层参数,bs为偏置项。
19.根据权利要求18所述的装置,其特征在于,所述相似度计算层采用以下公式计算映射后的所述短语特征和所述感兴趣区域的图像特征的相似度:其中,Vi为第i个感兴趣区域的图像特征,pj为第j个短语特征,sim(Vi,pj)为短语特征和所述第i个感兴趣区域的图像特征的相似度, 为第i个感兴趣区域的图像特征值, 为映射后的第j个短语特征,·为点积。
20.根据权利要求12所述的装置,其特征在于,所述检索模块用于,当所述检索语句中包括一个短语特征时,将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出;当所述检索语句中包括至少两个短语特征时,将平均相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出,所述平均相似度为单个感兴趣区域的图像特征与所述至少两个短语特征的相似度的平均值。
21.根据权利要求12‑20任一项所述的装置,其特征在于,所述获取模块还用于获取训练数据集,所述训练数据集包括样本图像和样本检索语句,每个所述样本图像包括至少一个目标对象,每个所述目标对象对应至少一个所述样本检索语句;
所述装置还包括训练模块,用于采用所述训练数据集,对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。
22.根据权利要求21所述的装置,其特征在于,所述训练模块用于,将所述样本图像和所述样本检索语句作为训练输入,基于最大间隔max‑margin损失函数,对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。
23.一种跨模态检索装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至11任一项所述的跨模态检索方法。
24.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至11任一项所述的跨模态检索方法。