1.基于共享深度强化学习的建筑物内疏散仿真方法,其特征是,包括:从视频中实时获取建筑物内的环境信息,实时采集人群分布信息;
搭建人群疏散双层控制机制,上层空间是管理Agent、多个导航Agent及知识库,下层空间是引领者及待分组的人群;
对待分组的人群进行分组,每组人群选出一个引领者,每组的引领者与对应的导航Agent连接,每个导航Agent均与管理Agent连接;
各导航Agent引导各组疏散,所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中;
管理Agent对知识库中的所有导航Agent的疏散信息,基于共享的深度强化学习算法进行学习,将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent;
每个导航Agent根据接收到的用于指导各导航Agent进行路径选择的策略,进行路径规划;
引领者按照对应导航Agent的路径规划,引领对应的群组向疏散出口疏散。
2.如权利要求1所述的方法,其特征是,所述实时采集人群分布信息,是通过蓝牙设备实时采集人群分布信息;通过蓝牙设备实时采集人群分布信息,具体包括:每个人分布的位置。
3.如权利要求1所述的方法,其特征是,所述管理Agent,用于:接收各个导航Agent上传的各引领者的位置和人员流信息,并将接收的信息存储到知识库中;实时记录每个引领者的位置和人员流信息;
接收各个导航Agent上传的已经成功疏散过行人的路径,并将该路径存储到知识库中;
根据各个出口的拥堵情况,并采用共享的深度强化学习算法,更新策略,协调各导航Agent的动作。
4.如权利要求1所述的方法,其特征是,所述导航Agent,用于:接收引领者的当前时刻所处位置,并将接收到的信息上传给管理Agent;
维护自己的经验池,接受管理Agent给出的疏散策略,并进行路径规划决策;
根据路径规划,向引领者发送下一时刻目标位置,引导对应的引领者引领人群向安全出口移动。
5.如权利要求1所述的方法,其特征是,各导航Agent引导各组疏散,所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中;具体步骤包括:每个导航Agent i将其t时刻的状态st输入其维护的策略j,得到下一步执行动作at,在疏散环境中,导航Agent i对应的引领者执行该动作并引导组内行人运动从而到达新状态st+1,并获得回报rt;同时导航Agent i将该交互数据以元组
其中,st是在t时刻的状态,at是在t时刻的动作,rt为t时刻的奖赏,st+1是执行动作at后下一步的状态。
6.如权利要求1所述的方法,其特征是,S5:管理Agent对知识库中的所有导航Agent的疏散信息,基于共享的深度强化学习算法进行学习,将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent;具体步骤包括:S501:管理Agent获取每个导航Agent的状态s1,s2,...,sn,得到组合状态S={s1,s2,...,sn};
S502:步数t=1;
S503:对每个导航Agent i,根据当前的状态 执行相应的动作 组合动作为得到新的组合状态 从环境中得到回报值将每个导航Agent i的 存到各自的经验池Di中;
S504:对每个导航Agent i,按动作集合中元素的个数,以经验池的容量为最大值生成一串随机数,然后以随机数为索引从所有导航Agent的经验池中采样得到时刻t的一批数据,并将其拼 接得到一批元组 元组中 每个数据的格式为 :其中st是t时刻导航Agent i的状态, 是t时刻所有
导航Agent的组合动作,st+1是执行At后Agent i的状态,rt是执行联合动作At后导航Agenti的回报值;
S506:将st+1输入到第i个Actor网络中得到动作At+1,随后将st+1与At+1共同输入到第i个Critic网络中,得到对下一时刻Agent i执行联合动作估计的目标Q值;
S507:t=t+1;如果t没达到最大回合数,转S503,否则结束并输出训练好的指导策略。
7.如权利要求6所述的方法,其特征是,所述S506步骤之后,所述S507步骤之前,还包括:Critic网络计算得到目标Q值的公式为:
其中, 是具有延迟参数θi'的目标策略集合;
将导航Agent i的状态 和所有导航Agent的组合动作组At,均输入到Critic网络中,得到导航Agent i执行当前动作的评价Q值,使用TD偏差更新导航Agent i的Critic网络:利用评价Q值的梯度来更新导航Agent i的Actor网络。
8.基于共享深度强化学习的建筑物内疏散仿真系统,其特征是,包括:获取模块,其被配置为:从视频中实时获取建筑物内的环境信息,实时采集人群分布信息;
搭建模块,其被配置为:搭建人群疏散双层控制机制,上层空间是管理Agent、多个导航Agent及知识库,下层空间是引领者及待分组的人群;
分组模块,其被配置为:对待分组的人群进行分组,每组人群选出一个引领者,每组的引领者与对应的导航Agent连接,每个导航Agent均与管理Agent连接;
存储模块,其被配置为:各导航Agent引导各组疏散,所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中;
学习模块,其被配置为:管理Agent对知识库中的所有导航Agent的疏散信息,基于共享的深度强化学习算法进行学习,将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent;
路径规划模块,其被配置为:每个导航Agent根据接收到的用于指导各导航Agent进行路径选择的策略,进行路径规划;
疏散模块,其被配置为:引领者按照对应导航Agent的路径规划,引领对应的群组向疏散出口疏散。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项方法所述的步骤。