1.一种基于视频的目标对象识别方法,包括:获取视频中的多帧初始图像,其中,每帧所述初始图像中包括至少一个目标对象;
根据每帧所述初始图像中的各目标对象,对所述多帧初始图像进行图像拼接,得到拼接图像,其中,所述拼接图像中包括各帧所述初始图像中的各目标对象;
对所述拼接图像进行特征提取,得到图像特征,并根据所述图像特征识别所述多帧初始图像中的各目标对象的属性信息。
2.根据权利要求1所述的方法,其中,根据每帧所述初始图像中的各目标对象,对所述多帧初始图像进行图像拼接,得到拼接图像,包括:确定每一所述初始图像中各目标对象的各目标像素点的属性信息;
根据每一所述目标像素点的属性信息,对所述多帧初始图像进行图像拼接,得到所述拼接图像。
3.根据权利要求2所述的方法,其中,所述多帧初始图像的帧数为N,N为大于1的正整数,i的初始值为1,i为大于等于1、且小于等于N的正整数;根据每一所述目标像素点的属性信息,对所述多帧初始图像进行图像拼接,得到所述拼接图像,包括:重复以下步骤,直至i的取值为N:以第i帧初始图像为基础图像,根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,将所述第i+1帧初始图像拼接至第i帧初始图像上,得到调整图像;将所述调整图像作为新的第i+1帧初始图像,将i累加1;
其中,在i的取值为N时,所得到的调整图像为所述拼接图像。
4.根据权利要求3所述的方法,其中,以所述第i帧初始图像为基础图像,根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,将所述第i+1帧初始图像拼接至第i帧初始图像上,得到调整图像,包括:
根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,确定所述第i+1帧初始图像与所述第i帧初始图像中的不相同目标像素点;
以所述第i帧初始图像为基础图像,根据所述不相同目标像素点,将所述第i+1帧初始图像拼接至第i帧初始图像上,得到调整图像。
5.根据权利要求3所述的方法,其中,以所述第i帧初始图像为基础图像,根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,将所述第i+1帧初始图像拼接至第i帧初始图像上,得到调整图像,包括:
将所述第i+1帧初始图像叠加至第i帧初始图像上,得到叠加图像;
根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,确定所述第i+1帧初始图像与第i帧初始图像的相同目标像素点,并在所述叠加图像中对所述相同目标像素点进行去冗余处理,得到所述拼接图像。
6.根据权利要求2至5中任一项所述的方法,其中,目标像素点的属性信息包括:目标像素点的时间信息和/或目标像素点的坐标信息。
7.根据权利要求6所述的方法,其中,所述目标像素点的坐标信息为横坐标信息或者纵坐标信息。
8.根据权利要求1至7中任一项所述的方法,其中,根据所述图像特征识别所述多帧初始图像中的各目标对象的属性信息,包括:确定多帧所述初始图像的位置编码,所述位置编码用于表征:每一帧所述初始图像相对于所述视频的整体时长的时间信息、每一帧所述初始图像相对于所述视频的整体位置的位置信息;
根据所述图像特征和所述位置编码识别所述多帧初始图像中的各目标对象的属性信息。
9.根据权利要求8所述的方法,其中,确定多帧所述初始图像的位置编码,包括:获取每一帧所述初始图像上的每一目标对象的各目标像素点的目标像素坐标,并获取每一帧所述初始图像的形成时间;
针对任意帧初始图像,确定所述任意帧初始图像的各目标像素坐标相对于各帧所述初始图像的各目标像素坐标的位置信息,并确定所述任意帧初始图像相对于各帧所述初始图像的形成时间的时间信息;
根据所述任意帧初始图像的各目标像素坐标相对于各帧所述初始图像的各目标像素坐标的位置信息、所述任意帧初始图像相对于各帧所述初始图像的形成时间的时间信息,确定所述位置编码。
10.根据权利要求1至9中任一项所述的方法,其中,对所述拼接图像进行特征提取,得到图像特征,并根据所述图像特征识别所述多帧初始图像中的各目标对象的属性信息,包括:
将所述拼接图像输入至预先训练的backbone模型中,得到所述拼接图像的图像特征,所述backbone模型用于对输入的图像进行特征提取;
将所述图像特征输入至预先训练的transformer模型,由transformer模型根据所述图像特征识别得到各所述目标对象的属性信息。
11.一种基于视频的目标对象识别装置,包括:获取单元,用于获取视频中的多帧初始图像,其中,每帧所述初始图像中包括至少一个目标对象;
拼接单元,用于根据每帧所述初始图像中的各目标对象,对所述多帧初始图像进行图像拼接,得到拼接图像,其中,所述拼接图像中包括各帧所述初始图像中的各目标对象;
特征提取单元,用于对所述拼接图像进行特征提取,得到图像特征;
识别单元,用于根据所述图像特征识别所述多帧初始图像中的各目标对象的属性信息。
12.根据权利要求11所述的装置,其中,所述拼接单元,包括:第一确定子单元,用于确定每一所述初始图像中各目标对象的各目标像素点的属性信息;
拼接子单元,用于根据每一所述目标像素点的属性信息,对所述多帧初始图像进行图像拼接,得到所述拼接图像。
13.根据权利要求12所述的装置,其中,所述多帧初始图像的帧数为N,N为大于1的正整数,i的初始值为1,i为大于等于1、且小于等于N的正整数;所述拼接子单元用于,重复以下步骤,直至i的取值为N:
以第i帧初始图像为基础图像,根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,将所述第i+1帧初始图像拼接至第i帧初始图像上,得到调整图像;将所述调整图像作为新的第i+1帧初始图像,将i累加1;
其中,在i的取值为N时,所得到的调整图像为所述拼接图像。
14.根据权利要求13所述的装置,其中,所述拼接子单元用于,根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,确定所述第i+1帧初始图像与所述第i帧初始图像中的不相同目标像素点,并以所述第i帧初始图像为基础图像,根据所述不相同目标像素点,将所述第i+1帧初始图像拼接至第i帧初始图像上,得到调整图像。
15.根据权利要求13所述的装置法,其中,所述拼接子单元用于,将所述第i+1帧初始图像叠加至第i帧初始图像上,得到叠加图像,并根据所述多帧初始图像中的第i帧初始图像中各目标对象的每一目标像素点的属性信息、第i+1帧初始图像中各目标对象的每一目标像素点的属性信息,确定所述第i+1帧初始图像与第i帧初始图像的相同目标像素点,并在所述叠加图像中对所述相同目标像素点进行去冗余处理,得到所述拼接图像。
16.根据权利要求12至15中任一项所述的装置,其中,目标像素点的属性信息包括:目标像素点的时间信息和/或目标像素点的坐标信息。
17.根据权利要求16所述的装置,其中,所述目标像素点的坐标信息为横坐标信息或者纵坐标信息。
18.根据权利要求11至17中任一项所述的装置,其中,所述识别单元,包括:第二确定子单元,用于确定多帧所述初始图像的位置编码,所述位置编码用于表征:每一帧所述初始图像相对于所述视频的整体时长的时间信息、每一帧所述初始图像相对于所述视频的整体位置的位置信息;
识别子单元,用于根据所述图像特征和所述位置编码识别所述多帧初始图像中的各目标对象的属性信息。
19.根据权利要求18所述的装置,其中,所述第二确定子单元,包括:获取模块,用于获取每一帧所述初始图像上的每一目标对象的各目标像素点的目标像素坐标,并获取每一帧所述初始图像的形成时间;
第一确定模块,用于针对任意帧初始图像,确定所述任意帧初始图像的各目标像素坐标相对于各帧所述初始图像的各目标像素坐标的位置信息,并确定所述任意帧初始图像相对于各帧所述初始图像的形成时间的时间信息;
第二确定模块,用于根据所述任意帧初始图像的各目标像素坐标相对于各帧所述初始图像的各目标像素坐标的位置信息、所述任意帧初始图像相对于各帧所述初始图像的形成时间的时间信息,确定所述位置编码。
20.根据权利要求11至19中任一项所述的装置,其中,所述拼接单元用于,将所述拼接图像输入至预先训练的backbone模型中,得到所述拼接图像的图像特征,所述backbone模型用于对输入的图像进行特征提取;
所述识别单元,用于将所述图像特征输入至预先训练的transformer模型,由transformer模型根据所述图像特征识别得到各所述目标对象的属性信息。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1至10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。
24.一种车辆,包括:
图像采集装置,用于采集视频;
如权利要求11至20中任一项所述的装置。
25.一种路侧设备,包括:如权利要求11至20中任一项所述的装置。