利索能及
我要发布
收藏
专利号: 2023114508757
申请人: 齐鲁工业大学(山东省科学院)
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习和图神经网络的人群导航方法,其特征是,包括:

基于机器人‑人群导航环境的模拟场景进行建模,将模拟场景转换为图表示;

获取图表示中机器人和人群中多位行人的状态特征信息;所述机器人的状态特征信息包括机器人的位置、速度和半径以及机器人预期的目标位置、首选速度和航向角;

所述行人的状态特征信息包括行人的位置、速度和半径;

基于机器人和行人的状态特征信息,通过GAT网络,提取包含空间特征信息的状态图表示;所述基于机器人和行人的状态特征信息,通过GAT网络,提取包含空间特征信息的状态图表示,包括:基于机器人和行人的状态特征信息,通过多层感知机MLP提取固定长度的潜在状态特征;

基于提取的潜在状态特征,利用成对的相似性函数,计算获得机器人邻域的关系矩阵;

基于机器人和行人的潜在状态特征以及机器人邻域的关系矩阵,通过GAT网络,提取包含空间特征信息的状态图表示;

基于包含空间特征信息的状态图表示,通过GRU网络,提取包含时间特征信息的状态图表示,并融合提取的两种状态图表示;所述基于包含空间特征信息的状态图表示,通过GRU网络,提取包含时间特征信息的状态图表示,并融合提取的两种状态图表示,包括:将当前时刻的包含空间特征信息的状态图表示和机器人的状态特征信息进行特征信息融合,再将融合后的特征与上一时刻的包含时空特征信息的状态图表示输入至GRU网络中,输出当前时刻的包含时空特征信息的状态图表示;

基于融合后的包含时空特征信息的状态图表示,采用SAC算法计算行为决策,生成机器人当前时刻应执行的最优动作,并不断循环迭代计算,直至机器人到达既定目标位置或发生碰撞或超出设定的最大导航时间,完成导航任务;所述基于融合后的包含时空特征信息的状态图表示,采用SAC算法计算行为决策,生成机器人当前时刻应执行的最优动作,包括:将当前时刻的包含时空特征信息的状态图表示输入至SAC算法的Actor策略网络中,根据概率分布选择一个动作并执行,当机器人选择的动作作用于环境时,根据未知状态转移概率转换到下一个状态,作为回报,机器人收到奖励;同时,行人根据策略采取行动,并进入下一个状态;

通过Critic价值网络,评估所执行动作的表现,生成机器人当前时刻应执行的最优动作,并指导机器人下一阶段的动作。

2.如权利要求1所述的基于深度强化学习和图神经网络的人群导航方法,其特征是,所述基于机器人和行人的潜在状态特征以及机器人邻域的关系矩阵,通过GAT网络,提取包含空间特征信息的状态图表示,包括:将机器人和行人的潜在状态特征和机器人邻域的关系矩阵输入到第一层GAT网络进行编码,输出第一层潜在状态特征和对应的注意力权重;

将机器人和行人的第一层潜在状态特征和机器人邻域的关系矩阵输入到第二层GAT网络进行编码,输出第二层潜在状态特征和对应的注意力权重;

将第一层和第二层GAT输出的潜在状态特征相加,并加上初始的机器人和行人的潜在状态特征,形成最终的包含空间特征信息的人群导航场景图表示。

3.如权利要求1所述的基于深度强化学习和图神经网络的人群导航方法,其特征是,所述奖励基于奖励函数计算获得,所述奖励函数为8个分量的加权和,所述8个分量为;

其中, 用于引导机器人朝向目标前进; 用于惩罚机器人于行人发生碰撞; 用于鼓励机器人与行人保持安全距离; 用于让前后两个时刻的速度和角度变化保持在一定范围内,惩罚机器人的速度和角度发生突变; 用于惩罚机器人静止不动的情况; 用于惩罚机器人后退行驶的行为; 用于计算行驶距离的奖励。

4.一种基于深度强化学习和图神经网络的人群导航系统,其特征是,包括:

模型构建模块,用于基于机器人‑人群导航环境的模拟场景进行建模,将模拟场景转换为图表示;

状态信息获取模块,用于获取图表示中机器人和行人的状态特征信息;所述机器人的状态特征信息包括机器人的位置、速度和半径以及机器人预期的目标位置、首选速度和航向角;

所述行人的状态特征信息包括行人的位置、速度和半径;

状态信息处理模块,用于基于机器人和行人的状态特征信息,通过GAT网络,提取包含空间特征信息的状态图表示;所述基于机器人和行人的状态特征信息,通过GAT网络,提取包含空间特征信息的状态图表示,包括:基于机器人和行人的状态特征信息,通过多层感知机MLP提取固定长度的潜在状态特征;

基于提取的潜在状态特征,利用成对的相似性函数,计算获得机器人邻域的关系矩阵;

基于机器人和行人的潜在状态特征以及机器人邻域的关系矩阵,通过GAT网络,提取包含空间特征信息的状态图表示;

基于包含空间特征信息的状态图表示,通过GRU网络,提取包含时间特征信息的状态图表示,并融合提取的两种状态图表示;所述基于包含空间特征信息的状态图表示,通过GRU网络,提取包含时间特征信息的状态图表示,并融合提取的两种状态图表示,包括:将当前时刻的包含空间特征信息的状态图表示和机器人的状态特征信息进行特征信息融合,再将融合后的特征与上一时刻的包含时空特征信息的状态图表示输入至GRU网络中,输出当前时刻的包含时空特征信息的状态图表示;

人群导航模块,用于基于融合后的包含时空特征信息的状态图表示,采用SAC算法计算行为决策,生成机器人当前时刻应执行的最优动作,并不断循环迭代计算,直至机器人到达既定目标位置或发生碰撞或超出设定的最大导航时间,完成导航任务;所述基于融合后的包含时空特征信息的状态图表示,采用SAC算法计算行为决策,生成机器人当前时刻应执行的最优动作,包括:将当前时刻的包含时空特征信息的状态图表示输入至SAC算法的Actor策略网络中,根据概率分布选择一个动作并执行,当机器人选择的动作作用于环境时,根据未知状态转移概率转换到下一个状态,作为回报,机器人收到奖励;同时,行人根据策略采取行动,并进入下一个状态;

通过Critic价值网络,评估所执行动作的表现,生成机器人当前时刻应执行的最优动作,并指导机器人下一阶段的动作。