利索能及
我要发布
收藏
专利号: 2017104536647
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于实现图文匹配的方法,其特征在于,包括:获取一组图像和文本;

利用第一卷积神经网络获取所述图像的图像特征,并利用第一递归神经网络获取所述文本中的各词语特征;

针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;

根据所述语义注意力值,计算所述图像和所述文本的匹配程度。

2.根据权利要求1所述的方法,其特征在于,所述获取一组图像和文本的步骤包括:获取输入图像,并从文本集合中选取任意一文本,将所述输入图像和所述选取的文本作为所述一组图像和文本;或者获取输入文本,并从图像集合中选取任意一图像,将所述输入图像和所述选取的图像作为所述一组图像和文本;

其中,所述文本集合为对文本库中的文本进行筛选过滤,由筛选过滤后获得的多个文本所形成的文本集合,且所述图像集合为对图像库中的图像进行筛选过滤,由筛选过滤后获得的多个图像所形成的图像集合。

3.根据权利要求2所述的方法,其特征在于,所述对文本库中的文本进行筛选过滤的步骤包括:利用第二卷积神经网络获取所述输入图像的图像特征,并利用第二递归神经网络获取文本库中的各文本的文本特征;

计算所述输入图像的图像特征与各文本的文本特征的相关性;

根据所述相关性的排序从所述各文本中选择多个文本,且所述选择出的多个文本作为所述文本集合。

4.根据权利要求2所述的方法,其特征在于,所述对图像库中的图像进行筛选过滤的步骤包括:利用第二递归神经网络获取所述输入文本的文本特征,并利用第二卷积神经网络获取图像库中的各图像的图像特征;

计算所述输入文本的文本特征与各图像的图像特征的相关性;

根据所述相关性的排序从所述各图像中选择多个图像,且所述选择出的多个图像形成所述图像集合。

5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:利用带有个体标识的图像样本以及带有个体标识的文本样本对第二卷积神经网络和第二递归神经网络进行训练的步骤。

6.根据权利要求5所述的方法,其特征在于,所述训练的步骤包括:利用第二卷积神经网络获取带有个体标识的图像样本的图像特征,并利用第二递归神经网络获取带有个体标识的文本样本的文本特征;

计算所述图像样本的图像特征与文本特征集合中的各文本样本的文本特征的第一匹配度,并计算所述文本样本的文本特征与图像特征集合中的各图像样本的图像特征的第二匹配度;

根据所述第一匹配度和第二匹配度的交叉熵损失函数更新所述第二卷积神经网络和第二递归神经网络的参数。

7.根据权利要求5或6所述的方法,其特征在于,所述图像特征集合中,具有相同个体标识的不同图像样本的图像特征共享该个体标识的图像特征存储空间;

和/或,

所述文本特征集合中,具有相同个体标识的不同文本样本的文本特征共享该个体标识的图像特征存储空间。

8.一种用于实现图文匹配的装置,其特征在于,包括:获取图文模块,用于获取一组图像和文本;

第一获取特征模块,用于利用第一卷积神经网络获取所述图像的图像特征;

第二获取特征模块,用于利用第一递归神经网络获取所述文本中的各词语特征;

处理模块,用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值;

判断模块,用于根据所述语义注意力值,计算所述图像和所述文本的匹配程度。

9.一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,下述指令被运行:用于获取一组图像和文本的指令;

用于利用第一卷积神经网络获取所述图像的图像特征的指令;

用于利用第一递归神经网络获取所述文本中的各词语特征的指令;

用于针对所述图像特征和所述各词语特征进行语义注意力处理,得到语义注意力值的指令;

用于根据所述语义注意力值,计算所述图像和所述文本的匹配程度的指令。

10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述权利要求1-7中任一项所述的方法。