1.一种基于孪生逆向强化学习的机器人运动控制方法,其特征在于,所述机器人运动控制方法包括:获取奖励值训练集和奖励值测试集;
对所述奖励值训练集和奖励值测试集进行孪生学习,获得最优奖励值;
获取机器人的动作集合以及所述动作集合对应的转移概率集合;
获取机器人在第一时刻的反馈量;
根据所述最优奖励值、所述动作集合、所述转移概率集合以及所述反馈量,通过逆向强化学习算法进行求解;
根据所述逆向强化学习算法的求解结果控制所述机器人在第二时刻的动作;所述第二时刻为所述第一时刻之后的时刻;
所述对所述奖励值训练集和奖励值测试集进行孪生学习,获得最优奖励值,包括:获取孪生学习模型;
设置目标奖励值;所述目标奖励值的初始值是根据所述奖励值训练集中选定的一个值设定的;
从所述目标奖励值的初始值开始,在所述奖励值训练集中按照梯度下降的方向选择新的值以更新所述目标奖励值;
将对应最小的第一期望损失的所述目标奖励值作为所述最优奖励值;所述第一期望损失是将所述目标奖励值与所述奖励值测试集中的值输入至所述孪生学习模型后,根据所述孪生学习模型的输出值确定的;
所述根据所述最优奖励值、所述动作集合、所述转移概率集合以及所述反馈量,通过逆向强化学习算法进行求解,包括:通过公式 确定A1;式中,A1表示所述动作集合中的一个动作,A表示所述动作集合中除A1以外的其他动作,PA表示所述转移概率集合中与A对应的转移概率*矩阵, 表示所述转移概率集合中与A1对应的转移概率矩阵,I表示单位矩阵,R 表示所述最优奖励值,r表示所述反馈量。
2.根据权利要求1所述的机器人运动控制方法,其特征在于,所述机器人运动控制方法还包括:对所述孪生学习模型进行预训练。
3.根据权利要求2所述的机器人运动控制方法,其特征在于,所述对所述孪生学习模型进行预训练,包括:配置所述孪生学习模型的参数值;
设置所述参数值的初始值;
从所述参数值的初始值开始,按照梯度下降的方向更新所述参数值;
当所述参数值被更新至对应最小的第二期望损失,结束对所述孪生学习模型进行的预训练;所述第二期望损失是将所述奖励值训练集中的值与所述奖励值测试集中的值输入至所述孪生学习模型后,根据所述孪生学习模型的输出值确定的。
4.根据权利要求1所述的机器人运动控制方法,其特征在于,所述根据所述逆向强化学习算法的求解结果控制所述机器人在第二时刻的动作,包括:获取动作A1对应的控制指令;
将所述控制指令发送至所述机器人。
5.根据权利要求1所述的机器人运动控制方法,其特征在于,所述机器人运动控制方法在所述机器人检测到障碍物或者未到达目标点时执行,在所述机器人到达目标点时停止执行。
6.一种机器人,其特征在于,所述机器人包括:
传感模块,用于获取机器人在第一时刻的反馈量;
处理模块,用于获取奖励值训练集和奖励值测试集,对所述奖励值训练集和奖励值测试集进行孪生学习,获得最优奖励值,获取机器人的动作集合以及所述动作集合对应的转移概率集合,根据所述最优奖励值、所述动作集合、所述转移概率集合以及所述反馈量,通过逆向强化学习算法进行求解;
驱动模块,用于根据所述逆向强化学习算法的求解结果控制所述机器人在第二时刻的动作;所述第二时刻为所述第一时刻之后的时刻;
所述对所述奖励值训练集和奖励值测试集进行孪生学习,获得最优奖励值,包括:获取孪生学习模型;
设置目标奖励值;所述目标奖励值的初始值是根据所述奖励值训练集中选定的一个值设定的;
从所述目标奖励值的初始值开始,在所述奖励值训练集中按照梯度下降的方向选择新的值以更新所述目标奖励值;
将对应最小的第一期望损失的所述目标奖励值作为所述最优奖励值;所述第一期望损失是将所述目标奖励值与所述奖励值测试集中的值输入至所述孪生学习模型后,根据所述孪生学习模型的输出值确定的;
所述根据所述最优奖励值、所述动作集合、所述转移概率集合以及所述反馈量,通过逆向强化学习算法进行求解,包括:通过公式 确定A1;式中,A1表示所述动作集合中的一个动作,A表示所述动作集合中除A1以外的其他动作,PA表示所述转移概率集合中与A对应的转移概率*矩阵, 表示所述转移概率集合中与A1对应的转移概率矩阵,I表示单位矩阵,R 表示所述最优奖励值,r表示所述反馈量。
7.一种计算机装置,其特征在于,所述计算机装置包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1‑5任一项所述方法。
8.一种存储介质,所述存储介质中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1‑5任一项所述方法。