1.一种目标跟踪方法,其特征在于,包括:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动;
所述目标对象跟踪模型包括LSTM和预设演员网络,所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,包括:使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数;
所述将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数之前,还包括:获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
2.如权利要求1所述的目标跟踪方法,其特征在于,所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
通过拍摄装置按指定拍摄间隔获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
3.如权利要求2所述的目标跟踪方法,其特征在于,所述预设采样周期处于200ms~
1200ms之间;
所述拍摄装置包括至少两个摄像头;
所述预设指定位置为机械臂末端;
所述指定拍摄间隔处于10ms~50ms之间。
4.如权利要求1所述的目标跟踪方法,其特征在于,所述获取基于机械臂跟踪训练生成的初始经验数据集之前,还包括:通过奖励公式计算所述奖励参数,所述奖励公式包括:
其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模, 为速度超限的惩罚项,|Δθi|/为第i个关节的角速度,ωmax i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
5.一种目标跟踪装置,其特征在于,包括:
采样模块,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
获取运动参数模块,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
跟随模块,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动;
所述目标对象跟踪模型包括LSTM和预设演员网络,所述获取运动参数模块包括:图像特征提取单元,用于使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
模型特征生成单元,用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
获取运动参数单元,用于将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数;
获取训练数据单元,用于获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
构建网络单元,用于构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
初始化单元,用于使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
训练单元,用于初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
获得预设演员网络单元,用于训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述目标跟踪方法。
7.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至4中任一项所述目标跟踪方法。