买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

￥31200

专利号： 2023105224224

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-13

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于编码器‑解码器及Bi‑LSTM注意力模型的图像描述方法，其特征在于，具体步骤如下：步骤1、提前准备好图像描述数据集，数据集里面有描述的标注，将数据集划分为训练集、测试集以及验证集；

步骤2、将训练集中标注的图像描述单词，按照单词出现的频率降序排列，将单词的映射以一维数组的形式存储在计算机中，形成与图像描述相关的词汇数组；

步骤3、构建并训练卷积神经网络CNN的编码器模型：构建一个由卷积层、平均池化层、全连接层和softmax层组成的编码器模型，并且设置每层的参数；然后不断训练这个模型，通过微调函数对各个参数进行微调，得到训练好的编码器模型；

步骤4、将训练集中的图片输入到训练以及调参完成的卷积神经网络CNN编码器模型中，并且同时输入到经过ImageNet数据集训练过的Resnet101网络上，将全连接层的特征作为编码器的图像特征输出，并且存储在编码器中；

步骤5、构建循环神经网络RNN的句子解码器模型：构建一个由输入层、输出层、隐藏层以及循环层组成的句子编码器模型，并且设置每层的参数，之后用微调函数调整参数；

步骤6、构建带有Bi‑LSTM的注意力机制模型：将一个注意力机制网络和双向长短期神经网络Bi‑LSTM组成新的Bi‑LSTM注意力模型，该Bi‑LSTM注意力模型是由两个相互独立的正向LSTM和反向LSTM组成的，该Bi‑LSTM注意力模型是由2048个神经元构成的；

步骤7、训练Bi‑LSTM注意力模型；

步骤8、进行编码器‑解码器及Bi‑LSTM模型效果的测试，采用三通道的编码器提取输出图像特征，然后将提取的图像特征作为输入，输入训练过的Bi‑LSTM注意力模型中，与词向量数组加权点乘，最后作为输入，输入训练优化过的句子编码器中，得到最后的图像描述，通过使用BLUE‑4、METEOR和CIDER作为图像描述的评价指标。

2.根据权利要求1所述的一种基于编码器‑解码器及Bi‑LSTM注意力模型的图像描述方法，其特征在于，在步骤7中，具体包括：步骤7.1、在t0‑tn不同时刻中，将训练集中每个图像描述的单词输入模型，从t0时刻开始，训练新的Bi‑LSTM注意力模型；

步骤7.2、参照步骤4，将其中经过ImageNet数据集训练过的Resnet101网络最后一层全连接层进行平均池化，将其平均池化后的特征作为特征向量；

步骤7.3、将特征向量和当前tn时刻图像描述的词向量相加，输入到Bi‑LSTM注意力模型中前向长短期记忆网络LSTM中，然后网络前向传导输出隐藏态；

步骤7.4、读取步骤2中的词向量数组，将词向量数组输入到Bi‑LSTM注意力模型的注意力网络中，注意力网络前向传导出加权的词向量数组；

步骤7.5、将当前tn时刻Bi‑LSTM注意力模型的隐藏态和注意力网络的加权词向量相加，将其输入到全连接层，输出tn+1时刻的单词向量概率；

步骤7.6、判断tn+1时刻图像描述中的单词是否存在，若存在，则用交叉熵函数计算出图像描述的tn+1时刻单词向量和单词向量概率之间的损失，然后，继续执行步骤7.2；否则，执行步骤7.7；

步骤7.7、根据步骤7.3、步骤7.4，利用Bi‑LSTM网络的双向性特点，首先将相加的词向量相加，输入模型中的后向长短期记忆网络LSTM中，网络后向传导输出隐藏态；将词向量数组输入模型的注意力网络中，注意力网络后向传导出加权的词向量数组；

步骤7.8、将当前tn时刻Bi‑LSTM注意力模型的隐藏态和注意力网络的加权词向量相加，将其输入到全连接层，经过，输出tn‑1时刻的单词向量概率；

步骤7.9、判断tn‑1时刻图像描述中的单词是否存在，若存在，则用交叉熵函数计算出图像描述的tn‑1时刻单词向量和单词向量概率之间的损失，然后，继续执行步骤7.2；否则，执行步骤7.10；

步骤7.10、将t0‑tn+1时间内的损失相加求和得到总损失和，并使用BP反向传播计算梯度和优化器Adam调整模型中的所有参数，减小总损失的值，优化模型的效果，当总损失趋于平稳时停止训练模型，得到训练完成的Bi‑LSTM注意力模型。