买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种用于智能安防的跨模态行人重识别系统及方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种用于智能安防的跨模态行人重识别系统及方法

￥14000

专利号： 2023114180032

申请人：中国矿业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种用于智能安防的跨模态行人重识别方法，其特征在于，包括如下步骤：步骤一、特征提取：

(1)对于每张输入的图片，输入到backbone网络，并使用Resnet50作为提取网络进行特征图信息featuremap，即全局信息提取；

(2)对于经步骤(1)提取到的每张图片的信息再分别经过姿态估计模块提取人体13个关键点的热度图，用人体关键点估计模型来学习关键点，关键点包括头部，肩部，肘部，手腕，臀部，膝盖和脚踝，并提取对应关键点的语义信息；

(3)将13个关键点的热度图和对应图片的featuremap全局特征图相乘，得到对应关键点的局部特征，再将每张图的featuremap经池化操作得到全局特征；

(4)将全局特征信息和局部特征信息馈送到改进的多分支卷积生成模块，得到更多全局信息和局部特征信息，以生成更多的嵌入；

(5)利用图卷积将提取到的关键点信息拼接融合，即将13个关键点的局部特征图和1个全局特征图在深度维度上拼接起来，得到更丰富的特征表达；融合的具体步骤为：a.设行人图片输入为x，获取特征map为mcnn，即提取出的特征图信息featuremap，关键点map为mkp，两者通过外积计算，并进行全局平均池化，获得局部语义特征和全局特征：式中，为进行外积计算，g表示进行，此方法是对输入x进行处理后得到的mcnn的处理，K表示特征信息的输入个数；表示对特征图信息求解得到全局特征，KK+1表示从第k+1个特征信息开始算起，S表示到第S个信息截止；

b.对于输入的特征信息，使用双流的Resnet50网络，将VIS‑IR特征输入到所提出的多分支卷积生成模块中，以生成更多嵌入；

步骤二、构建图卷积神经进行特征融合：

(1)通过图卷积神经，将上一个部分提取到的局部特征信息融合，得到不同局部特征之间的关联信息，具体步骤为：a.将局部特征Vl和全局特征Vg做减法操作，得到局部特征和全局特征之前的差异特征，其差异值越大，说明特征信息越不重要，属于离群信息；差异值越小，说明局部特征和全局特征越相似，该局部特征越重要，起的作用越大；

b.将得到的差异特征矩阵和预定义的图邻接矩阵做点乘，得到新的邻接矩阵，用来表示特征点之间的关系，再和Vl做矩阵乘法；

c.本身局部特征Vl使用concat方式进行关系特征融合，得到带有关系的拓扑图结构信息特征，使之带有新的13个关键点的局部特征，不仅带有自身的特征信息，还能携带相关节点的特征信息；

(2)根据输入信息得到的局部特征和全局特征的差异度来评估权重，偏离全局特征的关节点为被遮挡的信息或者是噪声，由此得到一个边的权重矩阵，用于控制信息的传递，并得到差异小的局部特征，图卷积计算公式如下：adp

式中，f1和f2是两个非共享的全连接层，A 代表自适应相邻学习矩阵，代表输入的图片信息，代表自适应有向的图卷积输入；

(3)由步骤(2)级联成高阶关系模块fR，其具体级联过程为使用自适应图卷积方式进行级联，其高阶关系模块为在上述高阶关系模块的基础上，提出一个跨图嵌入的对齐层，改对齐层根据余弦相似度计算相似性，根据两个节点的一阶对齐邻居的系数计算相似性，即如果不同网络中的两个节点有相似的对应顶点，它以两个图作为输入，利用图匹配策略学习其节点之间的对应关系，然后将学习到的对应关系视为邻接矩阵来传递信息；

(4)使用双流的Resnet50网络和图卷积神经网络，将VIS‑IR特征输入到多级特征聚合机制，以生成更多嵌入；

步骤三、多级特征聚合机制：

为聚合来自不同阶段的特征以挖掘不同的通道和空间特征表示，结合通道‑空间多阶段特征聚合块来聚合多阶段特征，同时考虑来自主干网各阶段通道空间聚合块的两类源特征，即每个阶段前的低级特征和阶段后经过主干网络提取后的高级特征图，使用多级特征聚合机制进行聚合，具体步骤如下：(1)使用三个1×1卷积层将f转换为三个紧凑嵌入和

首先进行通道聚合，通道的相似度矩阵计算如下，借助自注意力机制进行：式中，Fsoftmax是分类函数的一种，将多分类的输出值范围映射到[0，1]；

通过和M的矩阵乘法来恢复通道维度，从而实现通道的多级特征聚合，公式如下：s

式中，w代表对高层特征的聚合操作，fh代表低层特征；

(2)利用上述运算得到的和底层特征图fl进行空间特征聚合操作，公式如下：s s

式中，w和是两个1×1卷积层，M是空间相似矩阵；

步骤四、损失函数优化：

通过求出所使用的损失函数的和，并使其总值最小化；具体使用的损失函数如下：(1)中心引导对挖掘损失函数

为获得更多的特征输入信息并对信息进行处理，经过步骤三操作后，多级特征聚合机制生成更多嵌入，随后使用中心引导对挖掘损失获得多样化的嵌入，主要利用以下属性约束生成的嵌入，使其尽可能多样化，并有效减少VIS图像和IR图像之间的模态差异：属性a：生成的嵌入应该尽可能多样化，以有效地学习信息特征表示，因此，推开同一模态生成的嵌入与原始嵌入之间的距离，以学习不同的特征并挖掘不同的跨模态线索；

属性b：生成的嵌入应有助于减少VIS和IR图像之间的模态差异，因此，拉近由VIS模态生成的嵌入与原始IR嵌入之间的距离；同样，拉近由IR模态生成的嵌入与原始VIS嵌入之间的距离；

属性c：类内距离应小于类间距离，因此，拉近距离的同时需保持类内距离小于类间距离；

用公式表示如下：

式中，分别表示两个嵌入之间的欧几里得距离，

fv和fn是来自VIS和IR模态的原始嵌入，是来自VIS模态的第i个分支生成的嵌入；“+”代表如果括号里结果为正值则取此正值，如为负值则取相反数；

属性a、属性b和属性c上述公式可依次体现为，其目的是将生成的嵌入拉向原始IR的嵌入，以减小两者之间的模态差异；将生成的嵌入推离VIS的嵌入，使能够学习信息特征表示；使类内距离小于类间距离；

将每一类用中心点表示，相应点位置用其中心点位置表示，即使用Cn和Cv表示，使其对应生成的嵌入中心更有判别性，同时使用边际项α来平衡前面的三项，公式则变成：相似地，对于由IR生成的嵌入的类中心损失，表示为：

最终，中心引导对挖掘损失函数整理为：

(2)正交损失函数

为保证不同分支生成的嵌入能够捕获不同的信息特征表示，强制不同分支生成的不同嵌入正交，以最小化重叠元素，即在生成嵌入后，做一次嵌入正交，以保证后续操作的有效性，公式如下：式中，m和n分别是由原始嵌入生成的第m个和第n个嵌入，代表第m个嵌入的转置与第n个嵌入相乘，正交损失可以强制生成的嵌入学习更多信息的特征表示；

(3)交叉熵损失函数

交叉熵损失又称作Lce，对多分类任务中的每一类单独分析的话，真实分布P是一个二项分布，可能的取值为0或者1，而网络预测的分布Q可以理解为标签是1的概率，此外，由于多标签分类任务中，每一类是相互独立的，所以网络最后一层神经元输出的概率值之和并不等于1，对多标签分类任务中的一类任务来看，交叉熵损失函数为：式中，m代表类别的数量，yic代表符号函数，如果样本i的真实类别等于c取1，否则取0，pic代表观测样本属于类别的预测概率；

(4)三重熵损失函数

三重熵损失又称作Ltri，triplet是一个三元组，从训练数据集中随机挑选一个样本，该样本称为Anchor，再随机选取一个和Anchor属于同一类的样本和不同类的样本，这两个样本对应的成为Positive和Negative，通过最小化这四种损失Ltotal的总和，以端到端方式共同优化网络，总损失公式如下：Ltotal＝Lcpm+Lort+λ1Lce+λ2Ltri；

式中，λ1、λ2分别表示系数，在模型设计中，分别取0.8和0.01，在训练过程中，依靠损失函数的值不断进行收敛。

2.根据权利要求1所述的用于智能安防的跨模态行人重识别方法，其特征在于，所述步骤一中，将VIS‑IR特征输入到所提出的多分支卷积生成模块中，以生成更多嵌入的步骤为：(1)对于多分支卷积生成模块的每个分支，使用三个3×3的扩展卷积层，它们具有不同的扩展比，从上往下依次是1、2、3，将特征映射的数量f减少到其自身大小的1/4，将得到的各类小特征图组合成新的大特征图F，并通过ReLU激活层来提高多样化嵌入拓展模块的非线性表示能力，最后馈送到卷积层θ1×1，核大小为1×1，得到与f相同维度的嵌入特征，嵌入函数如下：式中，为对函数进行卷积处理，其中3×3代表卷积核大小为3，右上标1、2、3分别代表其为第一个3×3卷积、第二个3×3卷积和第三个3×3卷积；

(2)通过函数cat将所有输出进行一并输出，作为骨干网络下一阶段的输入。