利索能及
我要发布
收藏
专利号: 2018102427616
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像描述模型的训练方法,其特征在于,所述图像描述模型包括图像编码器和语言解码器,所述训练方法包括:经所述图像编码器提取训练图像集中图像的图像特征;

经所述语言解码器将所述图像特征解码为自然描述语言;

根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异;

基于所述差异调整所述图像编码器和/或所述语言解码器的参数。

2.根据权利要求1所述的方法,其特征在于,所述训练图像集包括有标注信息的图像。

3.根据权利要求2所述的方法,其特征在于,所述训练图像集还包括未标注信息的图像。

4.根据权利要求1-3任一所述的方法,其特征在于,所述根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异之前,还包括:对自检索模块进行预先训练,所述自检索模块用于根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异。

5.根据权利要求4所述的方法,其特征在于,所述自检索模块包括所述图像编码器和检索编码器;所述训练图像集中的图像与训练词语集中的词语存在对应关系;

所述对所述自检索模块进行预先训练,包括:

将存在对应关系的图像和词语输入所述自检索模块,训练所述自检索模块。

6.一种图像描述模型的训练装置,其特征在于,所述图像描述模型包括图像编码器和语言解码器,所述训练装置包括:图像解码单元,用于经所述图像编码器提取训练图像集中图像的图像特征;

编码单元,用于经所述语言解码器将所述图像特征解码为自然描述语言;

差异确定单元,用于根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异;

训练单元,用于基于所述差异调整所述图像编码器和/或所述语言解码器的参数。

7.一种电子设备,其特征在于,包括处理器,所述处理器包括权利要求6所述的图像描述模型的训练装置。

8.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;

以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至5任意一项所述图像描述模型的训练方法。

9.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1至5任意一项所述图像描述模型的训练方法。

10.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1至5任意一项所述图像描述模型的训练方法的指令。