1.基于深度强化学习的人群疏散仿真方法,其特征在于,包括:根据场景信息和人群参数信息对构建的疏散场景仿真模型进行初始化设置;
将人群进行分组,并划分出每个群组的领导者与跟随者;
采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E‑MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散;
对MADDPG算法中的经验池容量及采样样本数增添变化参数,形成E‑MADDPG算法的经验池曲线和采样样本曲线,通过变化参数调整经验池大小和采样样本数目,使E‑MADDPG算法的状态空间动态可变;
变化参数为: ;
变化函数为:
;其中,R(t)为当前经验池大小,t为学习次数;
;其中,N(t)为当前样本采集数目,t为学习次数;
接收商场真实的场景数据库,采用YOLO V3方法从行人视频中获取行人运动停驻点,作为E‑MADDPG算法的状态空间;
在对E‑MADDPG算法的网络训练时,选取价值高的样本进行经验重放;选择样本的 TD‑error 的绝对值 作为评估样本价值的标准; 计算公式如下:其中, 为奖励函数, 是折扣因子, 是目标动作价值网络,是动作价值网络, 是动作网络, 与 是网络参数。
2.如权利要求1所述的基于深度强化学习的人群疏散仿真方法,其特征在于,组内领导者通过E‑MADDPG算法进行全局路径规划,获取最优疏散路径,具体为:根据出口位置和领导者的初始位置,获取领导者的所有疏散路径;
计算每个疏散路径的奖励值;
选取奖励值最大的疏散路径为最优疏散路径。
3.如权利要求2所述的基于深度强化学习的人群疏散仿真方法,其特征在于,根据领导者是否到达出口与是否发生碰撞,对领导者选择的出口进行奖励,获得疏散路径的奖励值。
4.如权利要求1所述的基于深度强化学习的人群疏散仿真方法,其特征在于,组内跟随者基于RVO算法避障跟随领导者沿最优疏散路径进行疏散,具体步骤为:计算跟随者发生碰撞的所有速度和最佳无碰撞速度,最佳无碰撞速度的方向为组内领导者沿最优疏散路径运动的方向;
获取跟随者的当前位置;
当获得跟随者的最佳无碰撞速度时,更新跟随者的位置。
5.基于经验池优化的深度强化学习的人群疏散仿真系统,其特征在于,包括:初始化设置模块,根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;
组内领导选取模块,实现对全体个体进行分组;选取组内领导;
疏散仿真模块,采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E‑MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散;
对MADDPG算法中的经验池容量及采样样本数增添变化参数,形成E‑MADDPG算法的经验池曲线和采样样本曲线,通过变化参数调整经验池大小和采样样本数目,使E‑MADDPG算法的状态空间动态可变;
变化参数为: ;
变化函数为:
;其中,R(t)为当前经验池大小,t为学习次数;
;其中,N(t)为当前样本采集数目,t为学习次数;
接收商场真实的场景数据库,采用YOLO V3方法从行人视频中获取行人运动停驻点,作为E‑MADDPG算法的状态空间;
在对E‑MADDPG算法的网络训练时,选取价值高的样本进行经验重放;选择样本的 TD‑error 的绝对值 作为评估样本价值的标准; 计算公式如下:其中, 为奖励函数, 是折扣因子, 是目标动作价值网络,是动作价值网络, 是动作网络, 与 是网络参数。
6.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑4任一项方法所述的步骤。
7.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑4任一项方法所述的步骤。