1.一种基于编码器‑解码器及Bi‑LSTM注意力模型的图像描述方法,其特征在于,具体步骤如下:步骤1、提前准备好图像描述数据集,数据集里面有描述的标注,将数据集划分为训练集、测试集以及验证集;
步骤2、将训练集中标注的图像描述单词,按照单词出现的频率降序排列,将单词的映射以一维数组的形式存储在计算机中,形成与图像描述相关的词汇数组;
步骤3、构建并训练卷积神经网络CNN的编码器模型:构建一个由卷积层、平均池化层、全连接层和softmax层组成的编码器模型,并且设置每层的参数;然后不断训练这个模型,通过微调函数对各个参数进行微调,得到训练好的编码器模型;
步骤4、将训练集中的图片输入到训练以及调参完成的卷积神经网络CNN编码器模型中,并且同时输入到经过ImageNet数据集训练过的Resnet101网络上,将全连接层的特征作为编码器的图像特征输出,并且存储在编码器中;
步骤5、构建循环神经网络RNN的句子解码器模型:构建一个由输入层、输出层、隐藏层以及循环层组成的句子编码器模型,并且设置每层的参数,之后用微调函数调整参数;
步骤6、构建带有Bi‑LSTM的注意力机制模型:将一个注意力机制网络和双向长短期神经网络Bi‑LSTM组成新的Bi‑LSTM注意力模型,该Bi‑LSTM注意力模型是由两个相互独立的正向LSTM和反向LSTM组成的,该Bi‑LSTM注意力模型是由2048个神经元构成的;
步骤7、训练Bi‑LSTM注意力模型;
步骤8、进行编码器‑解码器及Bi‑LSTM模型效果的测试,采用三通道的编码器提取输出图像特征,然后将提取的图像特征作为输入,输入训练过的Bi‑LSTM注意力模型中,与词向量数组加权点乘,最后作为输入,输入训练优化过的句子编码器中,得到最后的图像描述,通过使用BLUE‑4、METEOR和CIDER作为图像描述的评价指标。
2.根据权利要求1所述的一种基于编码器‑解码器及Bi‑LSTM注意力模型的图像描述方法,其特征在于,在步骤7中,具体包括:步骤7.1、在t0‑tn不同时刻中,将训练集中每个图像描述的单词输入模型,从t0时刻开始,训练新的Bi‑LSTM注意力模型;
步骤7.2、参照步骤4,将其中经过ImageNet数据集训练过的Resnet101网络最后一层全连接层进行平均池化,将其平均池化后的特征作为特征向量;
步骤7.3、将特征向量和当前tn时刻图像描述的词向量相加,输入到Bi‑LSTM注意力模型中前向长短期记忆网络LSTM中,然后网络前向传导输出隐藏态;
步骤7.4、读取步骤2中的词向量数组,将词向量数组输入到Bi‑LSTM注意力模型的注意力网络中,注意力网络前向传导出加权的词向量数组;
步骤7.5、将当前tn时刻Bi‑LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,输出tn+1时刻的单词向量概率;
步骤7.6、判断tn+1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn+1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.7;
步骤7.7、根据步骤7.3、步骤7.4,利用Bi‑LSTM网络的双向性特点,首先将相加的词向量相加,输入模型中的后向长短期记忆网络LSTM中,网络后向传导输出隐藏态;将词向量数组输入模型的注意力网络中,注意力网络后向传导出加权的词向量数组;
步骤7.8、将当前tn时刻Bi‑LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,经过,输出tn‑1时刻的单词向量概率;
步骤7.9、判断tn‑1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn‑1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.10;
步骤7.10、将t0‑tn+1时间内的损失相加求和得到总损失和,并使用BP反向传播计算梯度和优化器Adam调整模型中的所有参数,减小总损失的值,优化模型的效果,当总损失趋于平稳时停止训练模型,得到训练完成的Bi‑LSTM注意力模型。