利索能及
我要发布
收藏
专利号: 2022108784952
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于图像全局特征注入的视觉问答方法,包括以下步骤:步骤1、对输入的图像进行预处理,通过对象检测模块提取可被模型接受的图像特征;

步骤2、对输入的问题进行预处理,通过预训练的词向量模型和时序模型提取可被模型接受的问题特征;

步骤3、对步骤1和步骤2得到的图像特征与问题特征输入到包含层内聚合的注意力网络中,获得图像区域特征、问题特征和含较多噪声信息的图像全局特征;

步骤4、对于步骤3中层内聚合的图像全局特征,通过层间聚合过滤噪声信息;

步骤5、将步骤3和步骤4产生的图像全局特征、图像区域特征和问题特征通过双边门控机制进行特征融合,获得融合特征;

步骤6、将步骤5中获得的融合特征输入多分类器中,通过多分类器选出概率最高的答案作为模型的预测结果;

所述步骤1中对输入的图像进行预处理,是采用Faster RCNN作为目标检测器,首先利用VGG和ResNet基础网络提取图像特征图,然后再根据区域建议网络和区域建议池化来得到固定尺寸的建议框特征图,再对建议框特征图进行分类与回归,获得动态数量的候选对象特征作为视觉特征;

对于每张输入的图像,提取的视觉特征如下式所示:式中: 为每张图像所提取的图像特征, 表示任意一个候选对象的特征, 表示每个候选对象特征的维度为 ,M为图像候选特征数量;

所述步骤2中对于输入的问题进行预处理是指,首先根据空格和标点符号将输入的问题分割成单词形式,并将各问题所包含的单词数填充或截断到相同的长度;然后使用维度为300的GloVe模型进行词嵌入,将单词映射到同一个向量空间中;对于GloVe模型中没有的单词,通过选择随机向量进行初始化;最后使用隐藏层维度为 的长短时记忆网络,提取每个时序单元的输出作为语言特征;如下式所示:式中: 为每个问题所提取的问题特征, 表示任意一个时序单元的输出, 为语言特征的维度,N为问题填充或截断到的相同长度;

所述步骤3中层内聚合的方法是:对于图像的输入 ,首先通过平均池化的方式获取存在较多噪声的图像全局特征g;然后将图像全局特征和图像区域特征进0

行拼接,生成新的图像特征C ;层内聚合的过程如下所示:;

所述步骤3中的注意力网络是指遵循编码和解码结构的深层联合注意学习结构;具体如下所示:

1)对于问题特征的输入,将进行 层包含自注意力模块的编码器学习;其中 层编码器的执行流程包括:(1)首先将编码器输入  通过权重矩阵 映射到个并行头上;然后对每个并行头进行缩放点积注意力;具体过程如下公式所示:式中: 为第 个并行头的注意力结果, 为缩放因子;softmax为归l

一指数化函数;Y 为问题特征经过l层编码器之后的输出;

(2)随后通过拼接 个并行头所生成的注意结果,得到包含子空间信息的多头注意力;

最后对注意结果进行残差和归一化操作,作为下一层编码器的输入;具体过程如下式所示:式中:LayerNorm为归一化操作,Concat为拼接操作, 为学习参数,h为多头注意力的平行头数目;(3)接着将通过 层编码器的学习后输出的包含预测答案所需上下文的问题特征,输入到包含两个ReLU非线性激活的多层感知器MLP中,然后通过SoftMax函数计算出各个特征权重 ;具体公式如下所示:;

L

式中:MLP为多层感知器,L为编码器层数,Y 为通过L层编码器后的问题特征输出;

(4)最后通过加权求和的形式,生成用于特征融合的问题特征 ;具体公式如下所示:为编码器的层数式中:N为问题填充或截断到的相同长度, 每个问题特征向量的权重, 为第i个问题特征向量;

2)对于图像特征输入,将进行 层包含自注意力模块的解码器学习;其中 层解码器的执行流程包括:(1)首先将 通过权重矩阵 映射到 个并行头上;然后对每个并行头进行缩放点积注意力;具体过程如下公式所示:l

式中: 为第 个并行头的注意力结果, 为缩放因子,C 为图像特征经过l层解码器之后的输出;

(2)随后通过拼接 个并行头所生成的注意结果,得到包含子空间信息的多头注意力;

最后对注意结果进行残差和归一化操作,作为下一层编码器的输入;具体过程如下公式所示:式中:LayerNorm为归一化操作,Concat为拼接操作, 为学习参数;

3)除了自注意力学习以外,还需要进行问题引导图像的跨模态注意力学习;具体公式如下所示:式中:此时的图像特征输出为 ;

抽取出图像的区域特征 ,首先将包含预测答案所需上下文的图像区域特征输入到包含两个ReLU非线性激活的多层感知器(MLP)中,然后通过SoftMax函数计算出各个特征权重 ;具体公式如下所示:;

最后通过加权求和的形式,生成用于特征融合的图像区域特征 ;具体公式如下所示:式中: 为每个图像区域特征向量的权重, 为第i个图像区域特征向量;

所述步骤4中层间聚合的方法是:

(1)首先提取各层解码器中的图像全局特征获得 ;然后将其送 入单 层长短 记忆网 络中 ,提 取各层 的输出 获得 图像全 局特 征;

公式如下所示:

i i

式中:g 为第i层解码器的图像全局特征,LSTM为长短记忆网络,h 为第i个LSTM单元的输出(2)接着计算问题特征 和图像全局特征 的相关性,作为特征权重,公式如下所示:

h

式中:ai为相关性权重, 为问题特征, sigmoid为激活函数;

(3)最后获得的相关性权重 对图像全局特征[数学公式]进行加权求和,得到用于特征融合的图像全局特征 ,公式如下所示:。

2.根据权利要求1所述的基于图像全局特征注入的视觉问答方法,其特征在于:所述步骤5中双边门控机制的方法是:(1)首先根据步骤3和步骤4中获得的图像区域特征 、问题特征 和图像全局特征计算门控值G;公式如下所示:式中:

(2)然后使用 控制图像区域特征的权重,使用 控制视觉全局特征的权重;并通过特征相加的形式获得最终的融合特征 以获得最佳的性能;公式如下所示:式中; 为学习参数。

3.根据权利要求2所述的基于图像全局特征注入的视觉问答方法,其特征在于:所述步骤6中多分类器的工作方法是:将步骤5中获得的融合特征输入由多个线性层组成的网络中,最后通过sigmoid函数将结果控制在0‑1之间,作为每个候选答案的概率;公式如下所示:式中:A'为模型预测答案,Limear为线性回归, f为融合特征。