利索能及
我要发布
收藏
专利号: 2020104728780
申请人: 苏州遐迩信息技术有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像描述模型的训练方法,其特征在于,包括以下步骤:

接收若干训练图像,抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量;

创建图像描述模型,所述图像描述模型包括:包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和第一多维度卷积核特征抽取器;所述编码模块包括第二多维度卷积核特征抽取器、第一Self Attention特征抽取器、第二Self Attention特征抽取器和第一简单前馈网络;所述解码模块包括第三多维度卷积核特征抽取器、带掩码的multi‑head attention特征抽取器、第一multi‑head attention特征抽取器、第二multi‑head attention特征抽取器和第二简单前馈网络组成;编码装置和编码装置之间由自注意力机制特征融合层衔接;

基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量,对所述图像描述模型进行交叉熵损失的训练;

对所述图像描述模型进行强化学习的训练;

所述“抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量”具体包括:对每个训练图像,都执行以下操作:基于已训练的Faster‑RCNN模型抽取对应的感兴趣区域特征向量,并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别;基于BERT模型、获得所述图像实体类别对应的类别特征词向量;基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量;所述训练图像为MS COCO数据集中的训练集中的图像;所述“基于BERT模型、获得所述图像实体类别对应的类别特征词向量”具体包括:基于BERT模型编码所述MS COCO数据集中出现的每个不同的词,获得包含有若干词向量的词汇表;基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量;其中,所述若干词向量的长度均相等;所述已训练的ResNet模型使用VisualGenome数据集进行训练的,其中,所述ResNet模型中的损失部分中添加了属性分类损失函数。

2.根据权利要求1所述的训练方法,其特征在于,所述“基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量,对所述图像描述模型进行交叉熵损失的训练”具体包括:基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量,对所述图像描述模型进行交叉熵损失的训练,在交叉熵损失的训练过程中,使用MS COCO数据集中的验证集图片进行模型拟合收敛判断,学习率采用自衰减策略,使用Adam优化器优化参与训练的参数。

3.根据权利要求2所述的训练方法,其特征在于,所述“对所述图像描述模型进行强化学习的训练”具体包括:

对所述图像描述模型进行强化学习的训练,在训练过程中,使用MS COCO数据集中的验证集图片进行模型拟合收敛判断;训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试;

在强化学习训练过程中,学习率设置为0.0000004,使用Adam优化器优化参与训练的参数;第一、第二和第三多维度卷积核特征抽取器的输入维度为1024,输出维度为1024;第二多维度卷积核特征抽取器使用一维卷积核,三维卷积核和五维卷积核;第一、第三多维度卷积核特征抽取器使用一维卷积核,二维卷积核和三维卷积;第一、第二multi‑head attention特征抽取器的输入维度为1024,输出维度为1024,head个数为8,每个head的处理维度为128;第一、第二简单前馈网络的输入维度为1024,输出维度为1024,采用3层编码器抽取图像特征,采用3层解码器解码图像特征,生成描述;训练过程中批处理大小为64。

4.一种图像描述模型的训练装置,其特征在于,包括以下模块:

特征抽取模块,用于接收若干训练图像,抽取每个训练图像对应的感兴趣区域特征向量、类别特征词向量和图像实体特征向量;

模型创建模块,用于创建图像描述模型,所述图像描述模型包括:包含有若干层编码模块的编码装置、包含有若干层解码模块的解码装置、自注意力机制特征融合层和第一多维度卷积核特征抽取器;所述编码模块包括第二多维度卷积核特征抽取器、第一Self Attention特征抽取器、第二Self Attention特征抽取器和第一简单前馈网络;所述解码模块包括第三多维度卷积核特征抽取器、带掩码的multi‑head attention特征抽取器、第一multi‑head attention特征抽取器、第二multi‑head attention特征抽取器和第二简单前馈网络组成;编码装置和编码装置之间由自注意力机制特征融合层衔接;

第一训练模块,用于基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量,对所述图像描述模型进行交叉熵损失的训练;

第二训练模块,用于对所述图像描述模型进行强化学习的训练;

所述特征抽取模块还用于:对每个训练图像,都执行以下操作:基于已训练的Faster‑RCNN模型抽取对应的感兴趣区域特征向量,并识别出若干图像实体区域框以及每个图像实体区域框所对应的图像实体类别;基于BERT模型、获得所述图像实体类别对应的类别特征词向量;基于已训练的ResNet模型、获取所述图像实体区域框对应的图像实体特征向量;

所述训练图像为MS COCO数据集中的训练集中的图像;所述特征抽取模块还用于:基于BERT模型编码所述MS COCO数据集中出现的每个不同的词,并获得包含有若干词向量的词汇表;基于BERT模型、从所述词汇表中获得所述图像实体类别对应的类别特征词向量;其中,所述若干词向量的长度均相等;所述已训练的ResNet模型使用Visual Genome数据集进行训练的,其中,所述ResNet模型中的损失部分中添加了属性分类损失函数。

5.根据权利要求4所述的训练装置,其特征在于,所述第一训练模块还用于:

基于所述若干训练图像的感兴趣区域特征向量、类别特征词向量和图像实体特征向量,对所述图像描述模型进行交叉熵损失的训练,在交叉熵损失的训练过程中,使用MS COCO数据集中的验证集图片进行模型拟合收敛判断,学习率采用自衰减策略,使用Adam优化器优化参与训练的参数。

6.根据权利要求4所述的训练装置,其特征在于,所述第二训练模块还用于:

对所述图像描述模型进行强化学习的训练,在训练过程中,使用MS COCO数据集中的验证集图片进行模型拟合收敛判断;训练完成后使用MS COCO数据集中的测试集数据集进行模型效果测试;

在强化学习训练过程中,学习率设置为0.0000004,使用Adam优化器优化参与训练的参数;第一、第二和第三多维度卷积核特征抽取器的输入维度为1024,输出维度为1024;第二多维度卷积核特征抽取器使用一维卷积核,三维卷积核和五维卷积核;第一、第三多维度卷积核特征抽取器使用一维卷积核,二维卷积核和三维卷积;第一、第二multi‑head attention特征抽取器的输入维度为1024,输出维度为1024,head个数为8,每个head的处理维度为128;第一、第二简单前馈网络的输入维度为1024,输出维度为1024,采用3层编码器抽取图像特征,采用3层解码器解码图像特征,生成描述;训练过程中批处理大小为64。