买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于情感融合与特征权重引导的幽默风格图像描述方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于情感融合与特征权重引导的幽默风格图像描述方法

￥31200

专利号： 2024116394878

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，包括如下步骤：步骤1、输入需要生成幽默描述的图像，进行幽默信息编码，在具有全局特性的二维特征平面集合基础上采用多层卷积与池化操作对输入图像进行特征分析后提取幽默特征向量；

步骤2、输入具有情感倾向要素的情感图像，进行情感信息编码，使用卷积神经网络对情感图像构建情感标志，获得情感标志向量；

步骤3、将步骤1得到的幽默特征向量和步骤2得到的情感标志向量采用特征拼接方法进行特征融合，组成联合特征向量；

步骤4、将联合特征向量作为特征输入，输入进线性层进行线性组合变换实现维度对齐，得到对齐后的联合特征向量；

步骤5、将对齐后的联合特征向量射进入长短期记忆网络，分析幽默图像描述的组织数据；

步骤6、对于幽默图像描述的组织数据，依靠上下文向量、上一个隐藏状态和已经生成的描述，在每个时间步捕获与特定输入位置相关的幽默视觉信息，逐个生成单词并最终组成一个完整的图像描述；

步骤7、对于完整的图像描述，基于幽默图像描述的组织数据解析其幽默程度，抽取幽默程度解析；

步骤8、根据幽默程度解析，对被描述的图像的联合特征向量进行集成化分析，调整权重，增强模型的描述多样性，得到权重强化引导后的特征；

步骤9、对于权重强化引导后的特征，以生成图像描述的幽默程度为收益对模型进行参数微调，提高模型对幽默风格图像描述的细粒度。

2.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤1具体为：输入具有情感倾向要素的情感图像进入一个删除了最后一个Softmax层的Inception‑v3网络，提取出一组特征向量，成为幽默特征向量；公式表达为：其中，表示对于情感信息图像的一部分的维表示。

3.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤2具体为：输入具有情感倾向要素的情感图像进入两层使用ReLU激活函数的卷积层，再通过一个最大值池化层，最后通过两个使用ReLU激活函数的全连接层，提取出情感标志向量；

。

4.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤3具体为：对幽默特征向量与情感标志向量实施特征拼接，得到联合特征向量；

其中个向量每个都是对应于任务图像和情感信息图像的一部分的维表示。

5.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤4具体为：首先计算每层输入数据与权值生成的新数据并传递到下一层，然后与相同的权值结合生成重构数据，映射回输入层，通过不断缩小输入数据与重构数据之间的误差，训练每层网络。

6.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤5具体为：对于齐后的联合特征向量，映射进入长短期记忆网络，以得到的联合特征向量为特征输入，通过选择所有特征向量的子集选择性聚焦于图像的部分，学习权重向量的投影，学习对输入分量的权重做计算，学习对记忆存储的贡献，学习擦除存储单元的权重，最终控制存储内容的权重，实现对联合特征向量的数据组织。

7.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤6具体为：对于幽默图像描述的组织数据，用表示一个由学习得到参数的简单仿射变换，、、、、、，分别是长短期记忆网络的输入、遗忘、内存、输出、隐藏状态和输入调制状态；公式为：其中，向量是上下文向量，捕获与特定输入位置相关的视觉信息，是

一个嵌入矩阵，和分别表示嵌入维数和长短期记忆网络维数，和分别表示Sigmoid激活函数和元素乘法，表示维到维的仿射变换，yt‑1表示上一个输出的单词，ht‑1表示上一个隐藏状态；

接着使用深度输出层，通过长短期记忆网络状态、上下文向量和前一个单词，计算输出词的概率：其中和是随机初始化的学习参数，是上下

文向量中上一个状态的单词序列的第一个向量，最终生成一个一对编码单词序列的描述，，其中是词汇的大小，是描述的长度，表示成正比。

8.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤7具体为：对于完整的图像描述，采用人工评估打分方法分析幽默描述关联数据分组，判断得到的图像‑文本对幽默程度，标定为幽默评分；以用户投票形式标注的幽默程度分数为正样本；负样本则为COCO数据集训练生成得到的图像描述组成，根据人工评估幽默评分，区分正样本和负样本，最终给出图像‑文本对的幽默置信度；幽默评分与生成描述的幽默程度呈现正相关，若幽默评分高于设定阈值，则划分为一个优质幽默描述，低于设定阈值的划分为一个劣质幽默描述。

9.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤8具体为：对于优质幽默描述，首先初始化优质幽默描述的联合特征向量的权重参数，初始权重都为1；设在时刻模型视觉特征参数向量的取值作为在时刻的位置变量，记为；直接取上下文向量的期望，公式为：相当于向系统中输入一个加权上下文向量，实现对于特征权重的调整，将生成过程在当前状态下生成下一个词的预测概率作为即时收益，其中为第个联合特征向量，为时刻第个联合特征向量的权重注释向量。

10.根据权利要求1所述的一种基于情感融合与特征权重引导的幽默风格图像描述方法，其特征在于，步骤9具体为：使用步骤8中得到的权重调整后的数据特征集合，对模型进行迭代训练，直到模型收敛，将收敛时刻得到的优质幽默描述作为最终情感信息融合与特征权重引导的幽默风格图像描述结果。