利索能及
我要发布
收藏
专利号: 2022104194250
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种神经网络模型训练方法,包括:

将第一文本信息输入第一神经网络模型,得到第一文本特征;

将第一图像信息输入第二神经网络模型,得到第一图像特征,所述第一文本信息与所述第一图像信息相对应;

基于所述第一图像特征和所述第一文本特征,确定第一损失函数的第一损失值;

将第二图像特征分别输入第一Transformer解码器模型和第二Transformer解码器模型,以对应得到所述第二图像特征的正向文本信息和反向文本信息,所述第一图像特征包括所述第二图像特征;

根据所述正向文本信息和所述反向文本信息获取第二损失函数的第二损失值,包括:基于所述正向文本信息和所述第二图像特征所对应的第二文本信息,确定第三损失函数的第三损失值,其中所述第一文本信息包括所述第二文本信息;

基于所述反向文本信息和所述第二图像特征所对应的所述第二文本信息,确定第四损失函数的第四损失值;以及基于所述第三损失值以及和所述第四损失值,确定所述第二损失值;基于所述第一损失值,调节所述第一神经网络模型的参数;以及基于所述第一损失值和所述第二损失值,调节所述第二神经网络模型的参数。

2.如权利要求1所述的方法,其中,所述方法还包括:基于所述第一损失值,在所述第一图像信息中获取第二图像信息;以及获取所述第二图像信息对应的所述第二图像特征。

3.如权利要求1所述的方法,其中,所述基于所述第一图像特征和所述第一文本特征,确定第一损失函数的第一损失值,包括:对所述第一图像特征和所述第一文本特征进行归一化处理;以及基于所述归一化处理后的所述第一图像特征和所述第一文本特征,确定第一损失函数的第一损失值。

4.如权利要求1所述的方法,其中,所述第一神经网络模型包括RoBERTa模型。

5.如权利要求1所述的方法,其中,所述第二神经网络模型包括DeiT模型。

6.一种图文检索方法,包括:

获取待检索文本;

将所述待检索文本输入经训练的第一神经网络模型,以获得所述待检索文本的文本特征;

将所获得的多个候选图像分别输入经训练的第二神经网络模型,以获得所述多个候选图像各自对应的图像特征;以及基于所述文本特征以及所述多个候选图像各自对应的图像特征,在所述多个候选图像中确定与所述待检索文本相匹配的至少一个图像,其中,所述第一神经网络模型和所述第二神经网络模型根据权利要求1‑5中任一项所述的方法训练得到。

7.一种神经网络模型训练装置,包括:

第一获取单元,配置为将第一文本信息输入第一神经网络模型,得到第一文本特征;

第二获取单元,配置为将第一图像信息输入第二神经网络模型,得到第一图像特征,所述第一文本信息与所述第一图像信息相对应;

第一确定单元,配置为基于所述第一图像特征和所述第一文本特征,确定第一损失函数的第一损失值;

第三获取单元,配置为将第二图像特征分别输入第一Transformer解码器模型和第二Transformer解码器模型,以对应得到所述图像特征的正向文本信息和反向文本信息,所述第一图像特征包括所述第二图像特征;

第四获取单元,配置为根据所述正向文本信息和所述反向文本信息获取第二损失函数的第二损失值,其中所述第四获取单元包括:第三确定单元,配置为基于所述正向文本信息和所述第二图像特征所对应的第二文本信息,确定第三损失函数的第三损失值,其中所述第一文本信息包括所述第二文本信息;

第四确定单元,配置为基于所述反向文本信息和所述第二图像特征所对应的所述第二文本信息,确定第四损失函数的第四损失值;以及第五确定单元,配置为基于所述第三损失值以及和所述第四损失值,确定所述第二损失值;

第一训练单元,配置为基于所述第一损失值,调节所述第一神经网络模型的参数;以及第二训练单元,配置为基于所述第一损失值和所述第二损失值,调节所述第二神经网络模型的参数。

8.如权利要求7所述的装置,还包括:

第五获取单元,配置为基于所述第一损失值,在所述第一图像信息中获取第二图像信息;以及第六获取单元,配置为获取所述第二图像信息对应的所述第二图像特征。

9.如权利要求7所述的装置,其中,所述第一确定单元包括:归一化单元,配置为对所述第一图像特征和所述第一文本特征进行归一化处理;以及第二确定单元,配置为基于所述归一化处理后的所述第一图像特征和所述第一文本特征,确定第一损失函数的第一损失值。

10.如权利要求7所述的装置,其中,所述第一神经网络包括RoBERTa模型。

11.如权利要求7所述的装置,其中,所述第二神经网络包括DeiT模型。

12.一种图文检索装置,包括:

第七获取单元,配置为获取待检索文本;

第八获取单元,配置为将所述待检索文本输入经训练的第一神经网络模型,以获得所述待检索文本的文本特征;

第九获取单元,配置为将所获得的多个候选图像分别输入经训练的第二神经网络模型,以获得所述多个候选图像各自对应的图像特征;以及第七确定单元,配置为基于所述文本特征以及所述多个候选图像各自对应的图像特征,在所述多个候选图像中确定与所述待检索文本相匹配的至少一个图像,其中,所述第一神经网络模型和所述第二神经网络模型根据权利要求1‑5中任一项所述的方法训练得到。

13.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑6中任一项所述的方法。

15.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1‑6中任一项所述的方法。