利索能及
我要发布
收藏
专利号: 2020115870050
申请人: 山东建筑大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种弱监督的深度上下文感知图像表征方法,其特征是,包括:获取待处理图像;

对待处理图像进行表征提取,提取出基础视觉表征;基于基础视觉表征,生成上下文强化视觉表征;对上下文强化视觉表征映射为哈希向量;

对哈希向量,进行二值化处理,得到待处理图像的哈希表征。

2.如权利要求1所述的一种弱监督的深度上下文感知图像表征方法,其特征是,所述对待处理图像进行表征提取,提取出基础视觉表征;基于基础视觉表征,生成上下文强化视觉表征;对上下文强化视觉表征映射为哈希向量;通过训练后的图像编码器来实现。

3.如权利要求2所述的一种弱监督的深度上下文感知图像表征方法,其特征是,所述图像编码器,包括:

依次连接的ResNet‑50网络、自注意力机制模块、求和单元、平均池化层和多层感知机网络;其中,ResNet‑50网络作为图像编码器的输入端,多层感知机网络作为图像编码器的输出端。

4.如权利要求3所述的一种弱监督的深度上下文感知图像表征方法,其特征是,所述ResNet‑50网络,用于对待处理图像进行表征提取,提取出基础视觉表征;

所述自注意力机制模块,用于捕获基础视觉表征的特征图上每一个点的上下文信息,得到上下文强化后的区域表征矩阵;

所述求和单元,用于将上下文强化后的区域表征与基础视觉表征相加,得到增强后的区域特征;

所述平均池化层,用于对增强后的区域特征进行融合得到上下文强化的视觉表征;

所述多层感知机网络,用于对上下文强化的视觉表征进行映射为哈希向量。

5.如权利要求2所述的一种弱监督的深度上下文感知图像表征方法,其特征是,所述训练后的图像编码器,训练步骤包括:构建训练集;所述训练集包括已知用户标签的图像;

将训练集中的图像作为图像编码器的输入值,将训练集中的已知标签的表征向量作为图像编码器的输出值,对图像编码器进行训练;

当图像编码器的总损失函数达到最小值时,停止训练,得到训练后的图像编码器。

6.如权利要求5所述的一种弱监督的深度上下文感知图像表征方法,其特征是,所述已知标签哈希码表征,获取步骤包括:对训练集图像的已知标签,采用标签编码器进行编码处理,得到已知标签的表征向量;

所述采用标签编码器进行编码处理的具体步骤包括:将与图像对应的每一个标签信息采用word2vec工具得到词向量编码;

对所有的词向量编码,进行平均池化处理,得到已知标签的表征向量。

7.如权利要求5所述的一种弱监督的深度上下文感知图像表征方法,其特征是,所述图像编码器的总损失函数,包括:量化损失函数、成对损失函数、铰链损失函数和辨别损失函数;

所述量化损失函数,旨在使图像编码器输出哈希向量 的元素值接近于0或1;

所述成对损失函数,旨在保证标签表征相似的图像对之间具有相似的哈希码表征;

所述铰链损失函数,为了消除图像和文本模态间语义鸿沟,铰链损失迫使输入匹配的图像‑标签对的表征相近,反之亦然;

所述辨别损失函数,迫使上下文强化的图像表征xi准确地重新生成相应的标签信息,从而确保图像表征的区分性,同时提高图像哈希表征的质量。

8.一种弱监督的深度上下文感知图像表征系统,其特征是,包括:获取模块,其被配置为:获取待处理图像;

表征提取模块,其被配置为:对待处理图像进行表征提取,提取出基础视觉表征;基于基础视觉表征,生成上下文强化视觉表征;对上下文强化视觉表征映射为哈希向量;

二值化处理模块,其被配置为:对哈希向量,进行二值化处理,得到待处理图像的哈希表征。

9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1‑7任一项所述的方法。

10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑7任一项所述的方法。