买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多Agent共享Q学习的疏散仿真方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多Agent共享Q学习的疏散仿真方法及系统

￥21400

专利号： 2018109825258

申请人：山东师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-04-09

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于多Agent共享Q学习的疏散仿真方法，其特征是，包括：步骤(1)：从视频中实时获取环境信息及人群分布信息，搭建疏散仿真场景；设置用于人群疏散控制的双层空间，上层空间，包括：管理Agent、导航Agent和知识库，下层空间，包括：待疏散的行人；对人群分组，每组人群选出一个引领者，每组的引领者与对应的导航Agent连接，每个导航Agent均与管理Agent连接；

步骤(2)：每个导航Agent引导对应的组进行疏散，同时每个导航Agent维护自身的Q表，还把实时获取的信息上传给管理Agent；

步骤(3)：每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表，按设定周期采用共享的Q学习算法进行学习，根据学习结果对导航Agent自身的Q表进行更新；每个导航Agent根据更新后的结果对路径进行规划，并将规划的路径发送给引领者，引领者根据导航Agent发送过来的信息，引领待疏散的行人进行疏散；

每个导航Agent引导对应的组进行疏散的具体步骤为：

步骤(201)：根据视频中已知的疏散路径，初始化疏散轨迹集合；

步骤(202)：依据疏散轨迹集合，建立疏散导航拓扑图；所述疏散导航拓扑图，包括：若干个疏散路径，每一个疏散路径上包括若干个导航点，两个相邻的导航点之间的疏散路径称为路段；所述导航点为障碍物或者出口；导航点与导航点之间的距离作为路段的权重；

步骤(203)：先构造状态集合，再构造行为集合，根据状态集合和行为集合确定执行策略，根据反馈集合调整执行策略；计算累积加权奖赏的数学期望，根据最大期望值寻找最优路径，最后利用最优路径更新疏散路径，执行疏散仿真；进入步骤(204)；

步骤(204)：判断新得到的路径是否比原有路径奖惩值更高，如果比原有路径奖惩值高，则采用新路径，否则返回步骤(203)；

步骤(205):沿新路径继续前行，更新位置；

步骤(206)：判断是否疏散完毕；如果是，则终止；否则采用新位置更新疏散轨迹集合；

返回步骤(202)；

所述步骤(203)的步骤为：

所述状态集合，用S表示，包括：所有导航点位置和引领者当前位置；

所述行为集合，用A表示，包括：从引领者从当前时刻所处位置到下一个时刻所处导航点位置的选择行为；

所述执行策略，用π表示，用于描述从行为集合中选择某个导航点位置，进而更换位置的概率；

π(a|s)＝P[At＝a|st＝s]；

其中，π(a|s)表示在状态s下选择行为a的概率；At是在t时刻的动作，St是在t时刻的状态，s是状态集合S中的一个状态，a是行为集合A中的一个行为；

所述反馈集合，包括：对每次所选择的导航点的评估值rt：rt＝R(π(a|st)，E)；

其中，a表示选择行为，st为t时刻引领者的位置，π(a|st)表示引领者在t时刻的位置处做出选择行为a的概率；E表示奖赏标准；R(π(a|st)，E)表示奖赏函数；

其中，奖赏标准E的计算公式为：

E＝w1×Dis+w2×Den+w3×Tim+w4×Hea其中：w1、w2、w3和w4是权重，初始值均为0.25；

Dis是进行归一处理后的从当前位置到下一个导航目标点的路径距离；

Den是进行归一处理后的从当前位置到下一个导航目标点的路径密度；

Tim是进行归一处理后从知识库中提取的历史数据计算出来的预计到达时间；

历史数据包括从导航点到导航点之间到达的时间及经过的人的次数；

预计到达时间是历史到达时间的平均值；

Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度，即曾经选择该路径人数之和与选择各路径的人数之和的比值；

根据状态集合、行为集合和反馈集合，计算累积加权奖赏的数学期望Vπ(s)：其中，γ∈[0,1]为折扣因子，rt为t时刻的奖赏，st为t时刻的状态；Eπ表示执行选择策略π的奖惩标准，rt+k表示t+k时刻的奖赏，st＝s表示st是状态集合S里的一个状态；

对于任意策略π，t时刻在状态st的值函数Vπ(st)表示为：其中，P(st+1|st，at)表示位置转移概率，Vπ(st+1)表示对于任意策略π，t+1时刻在位置st+1的值函数。

2.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，所述管理Agent，用于：接收导航Agent上传的各引领者的位置和人员流信息，并将接收的信息存储到知识库中；实时记录每个引领者的位置和人员流信息；

接收导航Agent上传的已经成功疏散过行人的路径，并将该路径存储到知识库中；

根据各个出口的拥堵情况，维护共享Q-表，辅助各导航Agent规划出口，并采用共享学习的方式，协调各导航Agent的动作。

3.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，所述导航Agent，用于：接收引领者的当前时刻所处位置，并将接收到的信息上传到管理Agent，通过管理Agent传送给知识库；

维护自己的Q-表，从管理Agent接受共享Q表的信息，并进行路径规划决策；

根据路径规划，向引领者发送下一时刻目标位置，引导对应的引领者引领人群向安全出口移动。

4.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，每组人群选出一个引领者的具体步骤为：以人群数据集X＝{xij,i＝1,2,…,N}为例：

其中，N是人群数据集分组数，xij是组i中的第j个个体；

每组根据个体的适应度函数值选出引领者；适应度函数值定义为：其中，w1和w2分别是个体对环境的熟悉程度的权重和距离出口的位置的权重值,w1+w2＝

1；设w1＝0.5，w2＝0.5；k(xij)是个体xij对场景的熟悉程度,d(xij)是xij距离出口的位置,xij是组i中的第j个个体；

各组中具有最高适应度值的个体被选择为引领者。

5.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，每个导航Agent维护自身的Q表，采用标准的Q学习算法，计算新的Q值并添加到Q表中；

其中：Q(st+1,at+1)与Q(st,at)分别为导航Agent在t+1时刻与t时刻的Q值，α∈[0,1]是学习因子，学习因子随学习的过程逐渐变小；γ∈[0,1]为折扣因子，γ越大，未来取得回报的比重越大；rt+1为t+1时刻的奖惩值，为转向下一个状态st+1时，执行行为集合A中所有行为a的最大值。

6.如权利要求2所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，共享学习算法如下：设定初始值，λ＝0.99；ε＝0.99；对每个导航Agent i,重复以下动作：步骤(31)：观察当前的状态st；

步骤(32)：根据公共Q值表，选择st+1所对应的最大Qc(st+1,a*)值Qc(st+1,a*)＝max{Q1(st+1,a1),Q2(st+1,a2),...,Qn(st+1,an)} (3)步骤(33)：按照概率1-λ替换掉自身Q表对应的Qi(st+1,ai)，得到具有最大值的Q(st+1,at+1)；

步骤(34)：以概率1-ε选择具有最大值的Q(st+1,at+1)所对应的动作at+1；

步骤(35)：导航Agent i更新自己的Q表，即把Q(st+1,at+1)加入自己的Q表中，发送到管理Agent，同时由管理Agent更新公共Q表，即把Q(st+1,at+1)加入公共Q表中，供其他导航Agent计算Qc(st+1,a*)时使用；

步骤(36)：执行状态转换st+1，即导航Agent从当前的位置移动到最优策略选择的下一个位置，看是否到达出口，如果已经到达出口，则结束；否则，转步骤(37)；

步骤(37)：λ＝0.99×λ；ε＝0.99×ε；转步骤(31)。

7.基于多Agent共享Q学习的疏散仿真系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-6任一项方法所述的步骤。

8.一种计算机可读存储介质，其特征是，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-6任一项方法所述的步骤。