利索能及
我要发布
收藏
专利号: 2021116377510
申请人: 深圳市商汤科技有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-10-25
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种神经网络模型训练方法,其特征在于,应用于包含多个编解码器的Transformer模型,包括:

获取多个目标图像组;其中,每个目标图像组包含对应原始图像的多个视角图像,每个视角图像均包含该原始图像中的目标对象;

确定每个所述目标图像组中与每个编解码器对应的两个视角图像;

基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理,得到每个所述编解码器的预测结果;每个预测结果包括:第二图像中目标对象的预测包围框和第一图像中目标对象的预测特征信息;

基于全部所述编解码器的预测结果训练Transformer模型,并基于训练后的Transformer模型训练目标网络模型。

2.根据权利要求1所述的方法,其特征在于,所述获取每个所述目标图像组,包括:获取每个所述目标图像组对应的原始图像,并在所述原始图像中截取包含所述目标对象的初始图像;

在所述初始图像中确定多个初始包围框,其中,任意两个初始包围框之间的交并比大于预设阈值;

截取所述初始图像中位于每个所述初始包围框中的图像,得到多个视角图像,并基于所述多个视角图像确定所述目标图像组。

3.根据权利要求1或2所述的方法,其特征在于,所述基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理,得到每个所述编解码器的预测结果,包括:通过每个所述编解码器的编码器对相应的第二图像的整体图像特征进行处理,得到第一编码图像特征;

将所述第一编码图像特征和相应的局部图像特征输入至该编解码器的解码器中进行处理,得到该编解码器的预测结果。

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:通过基础骨干网络提取所述第一图像的图像特征,得到第一初始图像特征,以及通过所述基础骨干网络提取所述第二图像的图像特征,得到第二初始图像特征;

基于所述第一初始图像特征确定所述局部图像特征,并基于所述第二初始特征图像确定所述整体图像特征。

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一初始图像特征确定所述局部图像特征,包括:

确定所述第一初始图像特征中位于所述目标对象的包围框内的图像特征,得到第一子图像特征;

截取所述第一图像中位于所述目标对象的包围框内的图像,并将截取到的图像确定为第二子图像特征;

将所述第一子图像特征和所述第二子图像特征进行合并,得到所述局部图像特征。

6.根据权利要求4或5所述的方法,其特征在于,所述基于全部所述编解码器的预测结果训练Transformer模型,包括:基于所述预测结果和初始图像特征确定每个所述编解码器的目标损失函数值;其中,所述初始图像特征包括:所述第一初始图像特征和所述第二初始图像特征;

基于各个所述编解码器的目标损失函数值迭代调整所述Transformer模型中的模型参数,得到所述训练后的Transformer模型。

7.根据权利要求6所述的方法,其特征在于,所述基于所述预测结果和初始图像特征确定每个所述编解码器的目标损失函数值,包括:基于所述第一初始图像特征和所述第二初始图像特征计算第一损失函数值,并基于所述预测结果中的预测特征信息和所述第一图像的分类标签计算第二损失函数值;

对所述第一损失函数值和所述第二损失函数值进行合并,得到该编解码器的目标损失函数值。

8.根据权利要求1至7中任一项所述的方法,其特征在于,基于训练后的Transformer模型训练目标网络模型,包括:

基于所述训练后的Transformer模型的模型参数对所述目标网络模型进行初始化处理;

获取目标训练样本;其中,所述目标训练样本包含多个样本图像,每个样本图像包含样本标签;

通过所述目标训练样本对初始化处理之后的目标网络模型进行训练,得到训练后目标网络模型。

9.一种目标检测方法,其特征在于,包括:获取待处理图像;

通过目标神经网络模型对待处理图像进行目标检测,得到目标检测结果;其中,所述目标神经网络模型为通过上述权利要求1至8中任一项所述的神经网络模型训练方法训练得到的网络模型。

10.一种神经网络模型训练装置,其特征在于,包括:第一获取单元,用于获取多个目标图像组;其中,每个目标图像组包含对应原始图像的多个视角图像,每个视角图像均包含该原始图像中的目标对象;

确定单元,用于确定每个所述目标图像组中与每个编解码器对应的两个视角图像;

处理单元,用于基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理,得到每个所述编解码器的预测结果;每个预测结果包括:第二图像中目标对象的预测包围框和第一图像中目标对象的预测特征信息;

训练单元,用于基于所述预测结果训练Transformer模型,并基于训练后的Transformer模型训练目标网络模型。

11.一种目标检测装置,其特征在于,包括:第二获取单元,用于获取待处理图像;

检测单元,用于通过目标神经网络模型对待处理图像进行目标检测,得到目标检测结果;其中,所述目标神经网络模型为通过上述权利要求1至8中任一项所述的神经网络模型训练方法训练得到的网络模型。

12.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的神经网络模型训练方法的步骤,或者,执行如权利要求9所述的目标检测方法的步骤。

13.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的神经网络模型训练方法的步骤,或者,执行如权利要求9所述的目标检测方法的步骤。