买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于词性标注的图像多样化描述可控生成方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于词性标注的图像多样化描述可控生成方法

￥14000

专利号： 2023110101120

申请人：中国矿业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于词性标注的图像多样化描述可控生成方法，其特征在于，包括训练阶段和测试阶段，其中训练阶段和测试阶段均包括对多样化词性标注序列生成模型进行训练和对可控描述生成模型进行训练；具体的对多样化词性标注序列生成模型进行训练包括：对多样化词性标注序列生成模型进行训练包括：步骤S100，给定一张图像I，使用预训练的Faster‑RCNN为图像I提取目标特征，并获得全局图像特征；

步骤S200，采用双向门控循环单元设计后验模型，获得后验隐变量；

步骤S300，建立先验模型，获得下先验隐变量；

步骤S400，通过KL散度将后验隐变量和先验隐变量对齐；

对可控描述生成模型进行训练包括：将离散的词性序列作为控制信号与全局图像特征、文本嵌入共同传入到自上而下的注意力LSTM中控制描述语句生成；

步骤S200中所述的双向门控循环单元包括两个方向相反的单向门控循环单元，其中后验模型的输入和输出分别为，

其中，[·]为向量拼接操作，pos表示T长度的词性序列；

步骤S300中，先验模型采用单向门控循环单元进行建模，其中先验模型输入和输出为，；

步骤S400中KL散度为

，

其中，

所述词性解码器模型采用经典的Up‑Down注意力模型，该模型由两个LSTM组成，分别为自上而下的注意力LSTM和语言LSTM，此时词性解码器的输入和输出可以定义为：，

，