利索能及
我要发布
收藏
专利号: 2024103922673
申请人: 河北工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进KM3D网络的三维目标检测方法,其特征在于,包括:获取待检测目标图像数据集;

将所述待检测目标图像数据集输入至改进的KM3D网络中进行检测,输出检测结果;

其中,所述改进的KM3D网络的主干网络为Resnet‑V2网络,并基于所述Resnet‑V2网络设计残差单元,所述改进的KM3D网络的注意力模块采用Simam注意力模块;

所述改进的KM3D网络包括输入模块、特征提取模块和检测输出模块;其中,所述输入模块用于对输入的所述目标图像数据集进行处理,并将处理后的数据集输入至所述特征提取模块;所述特征提取模块用于进行特征提取,将提取到的特征发送至所述检测输出模块;所述检测输出模块用于对所述特征进行检测后输出结果;

所述残差单元包括卷积残差模块和恒等残差模块,其中,所述卷积残差模块用于改变网络的维度,所述恒等残差模块用于将输入维度和输出维度调整为相同维度;

所述残差单元进行归一化时所使用的方法包括实例正则化方法和批量归一化方法,所述实例正则化方法用于提高模型的泛化能力,所述批量归一化方法用于保存相关信息;其中,在浅层同时使用所述实例正则化方法和所述批量归一化方法,将所述实例正则化方法和所述批量归一化方法作为构建块进行整合;在深层网络则使用所述批量归一化方法;

所述Simam注意力模块用于评估每个神经元的重要性,度量神经元之间的线性可分性;

基于所述Simam注意力模块进行处理的方法为:

式中, 为增强后的特征,E为最小能量,X为输入特征;

具体为:Simam定义的能量函数为:

式中,et(wt,bt,y,xi)为能量,yt、yo为引入的二进制标签,M为在某个通道上所有神经元的个数, 为t和xi的线性变换, t和xi分别指输入特征的目标神经元和其他神经元,wt和bt分别指某个神经元变换时的权重和偏差,i指空间维度上的索引;

最小化上述公式等价于训练同一通道内神经元t与其他神经元之间的线性可分性,采用二值标签,并添加正则项,最终的能量函数定义如下:式中,λ为超参数;

上式的解析解为:

式中,μt和 指该通道中除去目标神经元的均值和方差;

由于每个通道上所有神经元都遵循相同的分布,因此先对输入特征在H和W两个维度上计算均值和方差,避免重复计算:*

式中,et为最小能量;

整个过程表示为:

所述改进的KM3D网络的关键点损失函数为:

式中,Lk1为关键点损失函数,N为图像关键点个数,xyc为x和y的坐标及通道, 为热力图上的预测值,YXYC为热力图上的真实值,m、β、n为超参数,Yxyc为核函数;m,n∈[2,η],η为量级调节的最优值;m和n随着预测值 线性变化,通过改变η的取值,改进的关键点损失函数能有效调节模型对难易样本的训练比重;

改进的KM3D的主干网络还由Resnet组成,Resnet由Residual Units堆叠而成;

通过分析所述残差单元中的信号传播,当使用恒等映射作为快捷连接并且将激活函数移至加法操作后面时,前向‑反向信号都可以在两个block之间直接传播而不受到任何变换操作的影响;前馈和反馈信号可以直接传输,因此shortcut connection捷径连接的非线性激活函数替换为Identity Mappings;且在每一层中都使用了批量归一化方法。

2.根据权利要求1所述的基于改进KM3D网络的三维目标检测方法,其特征在于,所述改进的KM3D网络中,高斯核为椭圆形,用于增强对3D目标的检测能力。