1.一种视觉问答方法,其特征在于,所述方法包括:根据输入图像的多个图像区域特征得到多个图像总结特征,并根据输入问题的多个问题特征得到多个问题总结特征;
所述多个图像区域特征通过对所述输入图像进行特征提取得到,所述多个问题特征通过对所述输入问题进行特征提取得到;
每个所述图像总结特征是对不同的所述图像区域特征的线性组合,每个所述问题总结特征是对不同的所述问题特征的线性组合,且所述图像总结特征的数量少于所述图像区域特征的数量,所述问题总结特征的数量少于所述问题特征的数量;
根据所述图像总结特征和所述问题总结特征,生成多个隐变量特征,每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征;
基于注意力机制,将所述隐变量特征聚合至所述图像区域特征和问题特征;
使用聚合后的图像区域特征和问题特征,得到对应所述输入问题的回答。
2.根据权利要求1所述的方法,其特征在于,所述根据输入图像的多个图像区域特征得到多个图像总结特征,包括:
根据所述图像区域特征,确定第一线性组合权重;
根据所述第一线性组合权重和所述图像区域特征,生成所述图像总结特征。
3.根据权利要求1所述的方法,其特征在于,所述根据输入问题的多个问题特征得到多个问题总结特征,包括:
根据所述问题特征,确定第二线性组合权重;
根据所述第二线性组合权重和所述问题特征,生成所述问题总结特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述图像总结特征和问题总结特征,生成多个隐变量特征,包括:将所述图像总结特征和问题总结特征进行点积运算;
对计算结果进行线性变换,得到所述隐变量特征。
5.根据权利要求1所述的方法,其特征在于,在所述生成多个隐变量特征之后,所述方法还包括:
对所述隐变量特征进行维度变换,得到第一变换隐变量;
对所述隐变量特征进行空间变换,得到第二变换隐变量;
根据所述第一变换隐变量和第二变换隐变量,得到更新后的隐变量特征。
6.根据权利要求1所述的方法,其特征在于,所述基于注意力机制,将所述隐变量特征聚合至所述图像区域特征和问题特征,包括:分别对所述图像区域特征和问题特征进行线性变换,得到各自的查询特征;
对所述隐变量特征进行线性变换,得到对应的键特征和值特征;
根据所述键特征和所述查询特征,得到分别对应所述图像区域特征和问题特征的权重;
基于所述权重和值特征,对所述图像区域特征和问题特征进行信息聚合,得到聚合后的所述图像区域特征和问题特征。
7.根据权利要求1所述的方法,其特征在于,所述使用聚合后的图像区域特征和问题特征,得到对应所述输入问题的回答,包括:分别对所述聚合后的图像区域特征和问题特征进行池化;
根据池化后的所述图像区域特征和问题特征,输入分类器,得到对应所述输入问题的回答。
8.根据权利要求1至7任一所述的方法,其特征在于,在得到对应所述输入问题的回答之后,所述方法还包括:根据所述回答的预测值与标签值之间的损失,调整视觉问答网络的网络参数,其中,所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题,得到所述输入问题的回答。
9.根据权利要求1 至 7 任一所述的方法,其特征在于,所述基于注意力机制将所述隐变量特征聚合至图像区域特征和问题特征之后,所述方法还包括:根据聚合后的所述图像区域特征,生成对应的图像总结特征;并根据聚合后的所述问题特征,生成对应的问题总结特征。
10.一种视觉问答装置,其特征在于,所述装置包括:特征总结模块,用于根据输入图像的多个图像区域特征得到多个图像总结特征,并根据输入问题的多个问题特征得到多个问题总结特征;
所述多个图像区域特征通过对所述输入图像进行特征提取得到,所述多个问题特征通过对所述输入问题进行特征提取得到;
每个所述图像总结特征是对不同的所述图像区域特征的线性组合,每个所述问题总结特征是对不同的所述问题特征的线性组合,且所述图像总结特征的数量少于所述图像区域特征的数量,所述问题总结特征的数量少于所述问题特征的数量;
总结交互模块,用于根据所述图像总结特征和所述问题总结特征,生成多个隐变量特征,每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征;
特征聚合模块,用于基于注意力机制,将所述隐变量特征聚合至所述图像区域特征和问题特征;
回答获得模块,用于使用聚合后的图像区域特征和问题特征,得到对应所述输入问题的回答。
11.根据权利要求10所述的装置,其特征在于,所述特征总结模块,在用于根据输入图像的多个图像区域特征得到多个图像总结特征时,包括:根据所述图像区域特征,确定第一线性组合权重;根据所述第一线性组合权重和所述图像区域特征,生成所述图像总结特征。
12.根据权利要求10所述的装置,其特征在于,所述特征总结模块,在用于根据输入问题的多个问题特征得到多个问题总结特征时,包括:根据所述问题特征,确定第二线性组合权重;根据所述第二线性组合权重和所述问题特征,生成所述问题总结特征。
13.根据权利要求10所述的装置,其特征在于,所述总结交互模块,具体用于:将所述图像总结特征和问题总结特征进行点积运算;对计算结果进行线性变换,得到所述隐变量特征。
14.根据权利要求10所述的装置,其特征在于,所述装置还包括:交互传播模块,用于对所述隐变量特征进行维度变换,得到第一变换隐变量;对所述隐变量特征进行空间变换,得到第二变换隐变量;根据所述第一变换隐变量和第二变换隐变量,得到更新后的隐变量特征。
15.根据权利要求10所述的装置,其特征在于,所述特征聚合模块,用于:分别对所述图像区域特征和问题特征进行线性变换,得到各自的查询特征;对所述隐变量特征进行线性变换,得到对应的键特征和值特征;根据所述键特征和所述查询特征,得到分别对应所述图像区域特征和问题特征的权重;基于所述权重和值特征,对所述图像区域特征和问题特征进行信息聚合,得到聚合后的所述图像区域特征和问题特征。
16.根据权利要求10所述的装置,其特征在于,所述回答获得模块用于:分别对所述聚合后的图像区域特征和问题特征进行池化;根据池化后的所述图像区域特征和问题特征,输入分类器,得到对应所述输入问题的回答。
17.根据权利要求10至16任一所述的装置,其特征在于,所述装置还包括:参数调整模块,用于根据所述回答的预测值与标签值之间的损失,调整视觉问答网络的网络参数,其中,所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题,得到所述输入问题的回答。
18.一种视觉问答设备,其特征在于,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至9任一所述的方法。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至9任一所述的方法。