1.基于CNN和transformer的跨模态人群计数方法,其特征在于,包括如下步骤:(1)将RGB图像和热度图像分别输入由CNN组成的双分支网络结构中的各个分支,分别得到RGB特征图和热度特征图,所述双分支网络结构中的每个分支都包括12个卷积层和3个最大池化层;
(2)将步骤(1)中得到的RGB特征图和热度特征图作为输入,通过维度变换将上述特征图转换为序列向量,将序列向量输入新颖的跨模态transformer中,学习不同模态特征图的跨模态全局特征,得到由新颖的跨模态transformer提取的具有跨模态全局特征的RGB序列向量和热度序列向量;RGB特征图和热度特征图的维度均是C×H×W,其中,C、H、W分别是通道数、高度和宽度;序列向量的形状是K×E,其中,K、E分别是序列向量的序列数和一维向量长度;
(3)将步骤(2)得到的RGB序列向量和热度序列向量分别重塑为跨模态RGB特征图和跨模态热度特征图,将跨模态RGB特征图与由CNN组成的双分支结构提取的RGB特征图融合,将跨模态热度特征图与由CNN组成的双分支结构提取的热度特征图融合,分别得到融合后的RGB特征图和融合后的热度特征图;
(4)将网络不同层融合后的RGB特征图和融合后的热度特征图分别经跨层连接结构连接,得到输出RGB特征图和输出热度特征图;
(5)将跨层连接结构的输出RGB特征图和输出热度特征图输入跨模态注意力模块中,融合彼此的特征图,得到新的特征图;
(6)将新的特征图输入尾部网络,经一系列计算得到估计的密度图,所述尾部网络包括
4个卷积层;
(7)将所得密度图逐像素相加,得到估计的人数。
2.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(1)中各个分支中的每个卷积层生成的特征图通道数由输入至输出方向依次为
16、16、32、32、64、64、64、64、128、128、128、128,所述由CNN组成的双分支网络结构的各个分支中的池化层步长为2。
3.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(2)中将特征图转换为序列向量的详细流程为:将高为H,宽为W的特征图分割成4×4的图像块,那么C个通道的同一位置的所有图像块按顺序展成一维向量并进行首尾相接,得到完整的一维向量长度为E=C×4×4,一共有个相同长度的一维向量,即得到E和K。
4.根据权利要求3所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(2)中获取具有跨模态全局特征的RGB序列向量和热度序列向量的具体步骤为:首先,将RGB序列向量、热度序列向量乘以其权重矩阵得到Value’矩阵,将RGB序列向量、热度序列向量进行层标准化,保持了数据特征分布的稳定性,能加速模型收敛效果,将层标准化后的RGB序列向量、热度序列向量与其权重矩阵相乘得到Query矩阵;
然后,对层标准化后的RGB序列向量、热度序列向量进行空间金字塔下采样操作,进一步提取序列向量、热度序列向量的语义信息;
再将经过空间金字塔下采样的RGB序列向量和热度序列向量进行拼接,从而融合两种模态的特征,与对应的两种权重矩阵相乘得到Key矩阵和Value矩阵;
最后,将Query矩阵与Key矩阵进行矩阵相乘后并进行逻辑回归,得到的结果与Value进行矩阵相乘,再加上Value'矩阵,最终得到具有跨模态全局特征的RGB序列向量和热度序列向量。
5.根据权利要求4所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述新颖的跨模态transformer处理过程如下方公式所示:Q=LN(ERGB)WQ (1),
K=Concat(DW(LN(ERGB)),DW(LN(EThermal)))WK (2),V=Concat(DW(LN(ERGB)),DW(LN(EThermal)))WV (3),V′=LN(ERGB)WV ' (4),
其中,LN(·)表示层标准化;Concat(·)表示拼接操作;W表示权重矩阵;DW(·)表示空间金字塔下采样操作;V'表示原始的序列向量经过残差连接来保留的更多原始模态信息;
Q、K、V分别表示transformer的Query矩阵、Key矩阵以及Value矩阵;ERGB表示RGB序列向量;
MHA(Q,K,V,V')表示新颖的跨模态transformer的多头注意力操作;dk表示缩放因子。
6.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(3)的详细流程为:将新颖的跨模态transformer提取的具有跨模态全局特征的RGB序列向量,通过上采样操作与RGB特征图的空间维数对齐,再通过卷积核为1×1卷积操作将E与RGB特征图的C对齐,得到跨模态RGB特征图,将跨模态RGB特征图与RGB特征图进行像素级相乘得到融合后的RGB特征图;
同理将新颖的跨模态transformer提取的具有跨模态全局特征的热度序列向量,通过上采样操作与热度特征图的空间维数对齐,再通过卷积核为1×1卷积操作将E与热度特征图的C对齐,得到跨模态热度特征图,将跨模态热度特征图与热度特征图进行像素级相乘得到融合后的RGB特征图。
7.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(4)的具体流程为:从由CNN组成的双分支网络和新颖的跨模态transformer获得的融合后的特征图被输入到跨层连接结构,跨层连接结构通过卷积核为1的卷积操作调整通道数,并通过最大池化操作调整图的空间大小,得到通道数相同且空间大小相同的各层融合后的特征图,通过分支注意力模块增强网络不同层融合后的RGB特征图和融合后的热度特征图的通道信息,将这些各层融合后的特征图先调整通道数和空间大小,再通过分支注意力模块增强网络不同层融合后的RGB特征图和融合后的热度特征图的通道信息,最后对通道信息增强的特征图进行像素级相加,得到输出RGB特征图和输出热度特征图。
8.根据权利要求7所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述跨层连接结构中通过分支注意力模块增强网络不同层融合后的RGB特征图和融合后的热度特征图的通道信息,具体包括:首先,将融合后的RGB特征图和融合后的热度特征图通过三个卷积层进行卷积,这三个卷积层分别为:卷积核为5×5的卷积层、卷积核为7×7,空洞率为3的空洞卷积层、卷积核为
1×1的卷积层,将卷积层的输出通过ReLU激活函数进行激活;然后经过一个卷积核为1×1的卷积层,并通过Sigmoid激活函数;最后得到融合后且增强过通道信息的RGB特征图或热度特征图;
所述分支注意力模块处理过程如下方公式所示:
其中, 表示特征图的长距离信息;D‑Conv7,3(·)表示卷积核为7×7,空洞率为3的i空洞卷积运算;Conv5(·)表示卷积核为5×5的卷积运算;Ff 表示融合的特征图;Sigm(·)表示sigmoid函数;Conv1(·)表示卷积核为1×1的卷积运算;Relu(·)表示ReLu激活函数;
W表示权重矩阵;Output表示融合后且进行增强过的特征图。
9.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述步骤(5)具体包括:首先,将跨层连接结构的输出热度特征图分别进行步长为2和4的最大池化操作,进行拼接,经过卷积核为1×1的卷积层得到具有空间上下文信息的热度特征图,再将具有空间上下文信息的热度特征图分别进行通道维度的平均池化和最大池化,将两个池化的输出结果进行拼接,经过卷积核为5×5的卷积层,并通过Sigmoid激活函数激活,得到用于增强RGB特征图的可学习权重参数;然后,将跨层连接结构的输出RGB特征图通过通道维度的平均池化和最大池化,将两个池化的输出结果进行拼接,经过卷积核为5×5的卷积层,并通过Sigmoid激活函数进行激活,得到用于增强热度特征图的可学习权重参数;最后,将具有空间上下文信息的热度特征图和用于增强热度特征图的可学习权重参数相乘,将跨层连接结构的输出RGB特征图和用于增强RGB特征图的可学习权重参数相乘,将两个相乘结果进行逐像素相加即可得到新的特征图。
10.根据权利要求9所述的基于CNN和transformer的跨模态人群计数方法,其特征在于,所述跨模态注意力模块处理过程如下方公式所示:其中,Sigm(·)表示sigmoid函数;Conv5(·)表示卷积核为5×5的卷积运算;Conv1(·)表示卷积核为1×1的卷积运算;max_pool(·)表示通道维度的最大池化;avg_pool(·)表示通道维度平均池化;Concat(·)表示拼接操作; 表示热度图像的上下文信息;
表示RGB图的权重信息; 表示热度图的权重信息;max_pool2(·)表示核为2×2,步长为
2的最大池化;max_pool4(·)表示核为4×4,步长为4的最大池化; 表示两幅图像进行逐像素相乘; 表示两幅图像进行逐像素相加。