1.一种融合多角度多模态的图像描述生成方法,其特征在于,包括以下步骤:接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
根据第一句图像描述生成第一句语义向量;
采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
2.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,提取所述图像的全局视觉特征和局部视觉特征并进行融合具体包括:利用深度残差网络Inception-resnet提取图像的全局特征;
使用残差结构的RetinaNet网络提取图像的局部特征;
将全局特征和局部特征进行特征变换,转换为统一大小的特征向量;
通过视觉注意力机制将转换后的全局特征和局部特征进行融合。
3.如权利要求2所述的一种融合多角度多模态的图像描述生成方法,其特征在于,通过视觉注意力机制为每个全局视觉特征和局部视觉特征进行权重分配,对所有全局视觉特征和局部视觉特征加权求和得到融合视觉特征。
4.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,所述单层长短期记忆网络通过将图像数据和相应的描述语句作为训练数据进行学习得到;采用单层长短期记忆网络生成第一句图像描述包括:利用一个全连接层对融合视觉特征进行变换,使其与词嵌入具有相同的维数;
采用单层长短期记忆网络,首先将融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第一个词;将第一个词与融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第二个词;将第一个词、第二个词和融合视觉特征作为输入,将预测得到的句子中的第一个词记为第一句图像描述的第三个词;以此类推,预测得到第一句图像描述。
5.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,根据第一句图像描述生成第一句语义向量采用双向长短期记忆网络或一维卷积神经网络。
6.如权利要求1所述的一种融合多角度多模态的图像描述生成方法,其特征在于,采用基于注意力的长短期记忆网络生成完整的图像描述包括:采用基于注意力的长短期记忆网络,将第一句语义向量和局部视觉特征作为输入,预测得到第二句图像描述;根据第二句图像描述生成第二句语义向量,将第一句语义向量、第二句语义向量和局部视觉特征作为输入,预测得到第三句图像描述;以此类推,直至预测的描述句子数量达到设定阈值,从而生成完整的图像描述。
7.如权利要求6所述的一种融合多角度多模态的图像描述生成方法,其特征在于,所述基于注意力的长短期记忆网络为两层长短期记忆网络,每一次预测所采用的前句语义向量和局部视觉特征均通过一个全连接层和一个Softmax层,得到在图像上区域的注意力分布。
8.一种融合多角度多模态的图像描述生成系统,其特征在于,包括:
视觉特征提取模块,接收待描述图像,提取所述图像的全局视觉特征和局部视觉特征并进行融合,得到融合视觉特征;
句子生成模块,采用单层长短期记忆网络,将融合视觉特征作为输入,得到第一句图像描述;
句子再生成模块,根据第一句图像描述生成第一句语义向量;采用基于注意力的长短期记忆网络语言生成模型,将局部视觉特征和所述第一句语义向量作为输入,生成下一句图像描述句子,进而得到完整的图像描述。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的融合多角度多模态的图像描述生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,用于指纹图谱相似度计算,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的融合多角度多模态的图像描述生成方法。