1.一种交通场景封闭场地集群模拟方法,其特征在于,所述方法包括:根据时间效用和安全效用两个因素建立交通参与者博弈效用矩阵;
将所述交通参与者博弈效用矩阵引入最大熵逆强化学习模型,构建基于深度博弈最大熵逆强化学习模型网络架构的多交通参与者交通行为模型;
通过交通参与者交互数据集训练所述多交通参与者交通行为模型,得到逆强化学习交通参与者动态博弈模型;
根据目标需求搭建封闭场地实物场景,所述封闭场地实物场景包括多个第一交通参与者;
根据所述封闭场地实物场景和所述逆强化学习交通参与者动态博弈模型搭建虚拟仿真场景,所述虚拟仿真场景包括多个第二交通参与者;所述多个第一交通参与者与所述多个第二交通参与者一一对应;
搭建所述虚拟仿真场景与所述封闭场地实物场景的数据虚实交互链路;
获取所述多个第一交通参与者在第一时刻的第一状态信息,所述第一状态信息包括所述多个交通参与者在第一时刻的交通行为状态信息;
将所述第一状态信息通过所述数据虚实交互链路发送至所述虚拟仿真场景;
在所述虚拟仿真场景中,根据所述第一状态信息映射得到所述多个第二交通参与者的第二状态信息,所述第二状态信息包括所述多个交通参与者在第一时刻的交通行为状态信息;
将所述第二状态信息输入所述逆强化学习交通参与者动态博弈模型,得到所述多个第二交通参与者在所述第一时刻的下一时刻的预测状态信息;
将所述预测状态信息通过所述数据虚实交互链路发送至所述封闭场地实物场景;
根据所述预测状态信息控制所述多个第一交通参与者的动作轨迹。
2.根据权利要求1所述的方法,其特征在于,所述根据时间效用和安全效用两个因素建立交通参与者博弈效用矩阵,包括:根据所述时间效用和所述安全效用两个因素为所述多个第二交通参与者制定行为策略;
基于所述行为策略建立所述行为策略的时效性评估公式和安全性评估公式,所述时效性评估公式用于评估所述行为策略的时效性,所述安全性评估公式用于评估所述行为策略的安全性;
根据所述时效性评估公式和所述安全性评估公式构建所述交通参与者博弈效用矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述通过交通参与者交互数据集训练所述多交通参与者交通行为模型,得到逆强化学习交通参与者动态博弈模型,包括:对所述交通参与者交互数据集进行预处理,得到交通参与者交互数据训练集;
通过所述交通参与者交互数据训练集训练所述多交通参与者交通行为模型,得到所述逆强化学习交通参与者动态博弈模型。
4.根据权利要求3所述的方法,其特征在于,所述通过所述交通参与者交互数据训练集训练所述多交通参与者交通行为模型,得到所述逆强化学习交通参与者动态博弈模型,包括:从所述交通参与者交互数据训练集中提取行人的轨迹,得到专家轨迹;
通过所述专家轨迹训练所述多交通参与者交通行为模型,得到所述逆强化学习交通参与者动态博弈模型。
5.根据权利要求1或2所述的方法,其特征在于,所述根据目标需求搭建封闭场地实物场景,包括:根据所述目标需求确定目标测试场地;
在所述目标测试场地根据所述目标需求设置所述多个第一交通参与者;
在所述多个第一交通参与者中每个交通参与者安装定位设备和惯导设备;
将所述目标测试场地、所述多个第一交通参与者组合成所述封闭场地实物场景。
6.根据权利要求5所述的方法,其特征在于,所述根据所述封闭场地实物场景和所述逆强化学习交通参与者动态博弈模型搭建虚拟仿真场景,包括:将包括所述目标测试场地的地图文件导入仿真平台,得到所述目标测试场地的仿真环境;
通过仿真平台在所述仿真环境中还原所述多个第一交通参与者,得到所述多个第二交通参与者。
根据所述仿真环境、所述多个第二交通参与者和所述逆强化学习交通参与者动态博弈模型搭建所述虚拟仿真场景。
7.根据权利要求2所述方法,其特征在于,所述时效性评估公式为:其中,θ1为过街影响权重因子, 为车辆与行人选择过街时的时间效用,θ2为等待影响权重因子,tv/p为车辆与行人的等待时间, 为车辆与行人选择等待的时间效用;
所述安全性评估公式为:
其中, 为车辆与行人的安全效用函数,σv/p为车辆与行人的碰撞危险因子,θv/p为车辆与行人的安全影响权重,vv/p为车辆与行人的速度,av/p为车辆与行人的加速度。
8.一种交通场景封闭场地集群模拟装置,其特征在于,包括:矩阵建立单元,用于根据时间效用和安全效用两个因素建立交通参与者博弈效用矩阵;
构建单元,用于将所述交通参与者博弈效用矩阵引入最大熵逆强化学习模型,构建基于深度博弈最大熵逆强化学习模型网络架构的多交通参与者交通行为模型;
训练单元,用于通过交通参与者交互数据集训练所述多交通参与者交通行为模型,得到逆强化学习交通参与者动态博弈模型;
第一搭建单元,用于根据目标需求搭建封闭场地实物场景,所述封闭场地实物场景包括多个第一交通参与者;
第二搭建单元,用于根据所述封闭场地实物场景和所述逆强化学习交通参与者动态博弈模型搭建虚拟仿真场景,所述虚拟仿真场景包括多个第二交通参与者;所述多个第一交通参与者与所述多个第二交通参与者一一对应;
第三搭建单元,用于搭建所述虚拟仿真场景与所述封闭场地实物场景的数据虚实交互链路;
获取单元,用于获取所述多个第一交通参与者在第一时刻的第一状态信息,所述第一状态信息包括所述多个交通参与者在第一时刻的交通行为状态信息;
发送单元,用于将所述第一状态信息通过所述数据虚实交互链路发送至所述虚拟仿真场景;
映射单元,用于在所述虚拟仿真场景中,根据所述第一状态信息映射得到所述多个第二交通参与者的第二状态信息,所述第二状态信息包括所述多个交通参与者在第一时刻的交通行为状态信息;
输入单元,用于将所述第二状态信息输入所述逆强化学习交通参与者动态博弈模型,得到所述多个第二交通参与者在所述第一时刻的下一时刻的预测状态信息;
所述发送单元还用于将所述预测状态信息通过所述数据虚实交互链路发送至所述封闭场地实物场景;
控制单元,用于根据所述预测状态信息控制所述多个第一交通参与者的动作轨迹。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1‑7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1‑7中任一项所述的方法。