1.一种基于图像的问答方法,其特征在于,包括:获取输入的图像与目标问题;
识别所述图像以提取所述图像包含的各个目标物体;
识别每一个所述目标物体的可视化特征,根据所有所述目标物体的可视化特征计算所述图像的全局特征,根据所述全局特征确定所述图像对应的图像向量;
根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征,根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量;
将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算,得到所述目标问题的答案集合;
计算所述答案集合中各个答案的置信度,根据所述置信度选取符合预设要求的答案作为目标答案。
2.根据权利要求1所述的基于图像的问答方法,其特征在于,所述识别每一个所述目标物体的可视化特征,根据所有所述目标物体的可视化特征计算所述图像的全局特征,包括:识别并获取图像中每一个所述目标物体的可视化特征,所述可视化特征包括目标物体的位置信息、大小信息与类型信息;
根据所述图像中每一个目标物体的位置信息、大小信息与类型信息计算所述图像的位置信息的平均值,大小信息的平均值以及类型信息的平均值;
根据所述位置信息的平均值,大小信息的平均值以及类型信息的平均值确定图像的全局特征。
3.根据权利要求1所述的基于图像的问答方法,其特征在于,所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征,包括:获取图像中每一个目标物体的可视化特征,所述可视化特征包括目标物体在所述图像中的位置信息、大小信息、类型信息以及所述目标物体与所述图像中的其他目标物体的相对位置信息;
根据图像的全局特征、每一个目标物体在所述图像中的位置信息、大小信息、类型信息以及所述目标物体与所述图像中的其他目标物体的相对位置信息计算图像中的每一个目标物体的局部视觉特征。
4.根据权利要求1所述的基于图像的问答方法,其特征在于,所述计算所述答案集合中各个答案的置信度,包括:
获取答案集合中各个答案包含的单词;
统计相同单词在所有答案中出现的频次,根据所述频次确定每一个单词的可信度;
根据各个答案中每一个单词的可信度计算各个答案的置信度。
5.根据权利要求1所述的基于图像的问答方法,其特征在于,所述根据所述置信度选取符合预设要求的答案作为目标答案之后,还包括:获取所述目标问题的语言类型;
将所述目标答案按照所述语言类型输出。
6.根据权利要求1所述的基于图像的问答方法,其特征在于,所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征,根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量之后,还包括:获取所述目标物体的物体文本描述向量的数值;
选取所述数值满足预设要求的物体文本描述向量作为待输入的物体文本描述向量;
所述将所述图像向量、物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算,得到所述目标问题的答案集合,包括:将所述图像向量、待输入的物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算,得到所述目标问题的答案集合。
7.根据权利要求1所述的基于图像的问答方法,其特征在于,所述根据所述置信度选取符合预设要求的答案作为目标答案之后,还包括:接收对所述目标答案的反馈信息;
若所述反馈信息为负反馈信息,根据所述置信度从高到低的排序依次选取新的答案作为目标答案。
8.一种基于图像的问答装置,其特征在于,包括:数据获取模块,用于获取输入的图像与目标问题;
图像识别模块,用于识别所述图像以提取所述图像包含的各个目标物体;
全局特征模块,用于识别每一个所述目标物体的可视化特征,根据所有所述目标物体的可视化特征计算所述图像的全局特征,根据所述全局特征确定所述图像对应的图像向量;
局部特征模块,用于根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征,根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量;
联合嵌入模块,用于将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算,得到所述目标问题的答案集合;
答案筛选模块,用于计算所述答案集合中各个答案的置信度,根据所述置信度选取符合预设要求的答案作为目标答案。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于图像的问答方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于图像的问答方法的步骤。