利索能及
我要发布
收藏
专利号: 2021108483039
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于人车风险状态的人机共驾控制权决策方法,其特征在于,包括以下步骤,且以下步骤顺次进行:

步骤S1、建立基于人‑车风险状态博弈关系的强化学习奖惩机制;

步骤S1‑1、在已完成智能车辆有能力预测驾驶人风险驾驶行为状态和车辆运行风险状态的基础上,使用马尔科夫决策过程处理人车风险监测结果,使其符合强化学习算法的运算规则;

步骤S1‑2、针对强化学习算法框架中的奖励函数设定问题,以期望效用最大定理为准则,以效用最大化为目标,提出基于完全信息静态博弈的人‑车风险状态博弈方法;

步骤S1‑3、使用逼近理想解排序法计算得到的理想点相对距离作为策略收益的量化手段,基于使用熵权法计算得到的指标权值,以无风险驾驶状态的驾驶行为表征指标和时间裕度为负理想点,提取其他各风险等级的驾驶行为表征指标和时间裕度数据,分别计算以负理想点为基准的相对距离,得到考虑人‑车风险博弈关系的效用矩阵;

步骤S2、提出基于强化学习算法架构的人机共驾控制权决策方法;

步骤S2‑1、借助于马尔科夫决策过程的时序特征描述智能体的环境交互方式,将人、车风险监测结果嵌入强化学习算法架构;

步骤S2‑2、以步骤S1的强化学习奖惩机制作为决策的奖励或惩罚参照标准,提出基于强化学习算法架构的人机共驾控制权决策方法,通过全局寻优的方式遍历模型的决策系数和切换时机,使模型得到相对最佳的决策输出结果,兼顾最优的自动化系统切换时机;

至此,完成整个决策模型的构建。

2.根据权利要求1所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述步骤S1具体包括以下步骤,且以下步骤顺次进行:第一步、构建标准化评估矩阵,X是原始数据矩阵,m是指标的维度,n是指标的数目,x′ij是标准化数据;

第二步、指标的特征比例计算;

第三步、指标的信息熵计算, pij是指标的特征比例,ei是指标的信息熵;

第四步、基于信息熵冗余的权重计算,wj为指标的权值;

第五步、指数的中间型化处理;

式中,xij是原始数据, 是中间正则化处理后的数据,以无风险驾驶等级的表征指标作为控制变量,以xL作为其他风险等级的表征指标;

第六步、归一化初始矩阵,zij是正向指标的归一化值,即每个列元素除以当前列向量的范数;

第七步、各个风险等级和负理想点之间的相对距离计算;

式中,wj是由式(5)计算的熵权值; 是各个风险等级驾驶状态负理想点之间的相对距离,以此构造人‑车风险博弈关系的效用矩阵。

3.根据权利要求2所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述第七步中构造人‑车风险博弈关系的效用矩阵时,设ρ和σ分别为人、车风险状态的效用human vehicle

值,u (σt)和u (σt)分别为驾驶行为风险状态和车辆行驶风险状态的期望效用函数,q为策略概率;

human

当驾驶行为风险状态为RPi 时,车辆风险状态的期望收益 为当驾驶行为风险状态为 时,车辆风险状态的期望收益vehicle

为u (σj)=q·σj+(1‑q)·σj+1;

为了使车辆风险状态在任意驾驶行为风险状态时都有稳定的效用,则效用函数U(σ)的计算方法如公式(12),式中的效用值σi、σi+1、σj和σj+1由公式(11)计算得到;

4.根据权利要求1所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,步骤S2具体包括以下步骤,且以下步骤顺次进行:第一步、在每一个时间段t,智能体接收到表示环境情况的向量st并根据st做出动作策略,由策略指导产生动作At,基于At由奖励函数生成奖励rt+1会在下一个时刻给予智能体,智能体迭代更新至st+1,如此反复进行形成智能体交互轨迹τ=[s0,A0,R1,s1,A1,R2,…,sn,An,Rn+1],在任意时间t,智能体的目标是最大化总回报Gt,优化期望E(Gt)即最大化车辆安全性;

其中,衰减系数γ用来区分即时奖励与未来回报的重要性,0≤γ≤1,当γ接近于0时,代表智能体更加看重当前的即时奖励;当γ接近于1时,代表智能体更加注重未来的奖励来做出决策;Rk是k时刻的奖励;

第二步、以车辆整体安全性信息池作为强化学习的环境,智能体从环境中抽取有时序特征的数据展开迭代计算;

第三步、以强化学习的优势演员评论家算法为例,建立决策模型;

第四步、智能体提取环境空间的特征变量至动作空间,根据人、车的风险状态做出降低风险的决策结果 决策结果是‑1到1连续的值,越接近1代表智能体越支持保持当前驾驶状态,反之则表示应该做出预警或控制权切换等措施;

第五步、采用期望的效用函数来衡量综合行车安全性的效果,如公式(21),U(σt)是智能体奖励函数所依托的效用函数,由公式(12)计算得到,将此公式转换成强化学习的奖励函数Rreward如公式(22);

E[U(σt)]=E[U(σ0+∑δ·σt)]    (21)式中,μ∈[0,1]是奖励函数系数,是用于调节决策效果的关键参数之一,μ值决定了奖human vehicle

励Rreward的幅度;ΔRPt 和ΔRPt 分别是人、车当前时刻风险等级与前一状态的差值。

5.根据权利要求4所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述第二步,智能体需要采集以下特征:正则化后的风险驾驶行为表征指标[p1,p2,p3,…,pn];

风险评价等级序列为[r1,r2,…rn],此序列由风险驾驶行为预测模型采集;

human vehicl

时刻风险驾驶行为预测模型的输出记为RPt ,车辆风险等级记为RPt ,RP为车辆的综合风险,三者关系如下:

human vehicle

RP=α·RP +β·RP     (14)式中,α和β是人、车状态对应的决策权重,α∈[0,1],β∈[0,1],车辆行驶过程中决策模型对车辆风险的重视程度应该高于驾驶人行为的风险,因此α<β,α和β的取值决定了最终决策结果效果。

6.根据权利要求4所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述第三步中的决策模型包含两个模块;

模块一是演员网络的输出是人机共驾控制权决策结果,即动作空间的动作向量包含分别对于驾驶人行为和车辆风险状态的决策;

模块二是使用评论家网络用来判断决策结果在给定环境下的效果。

7.根据权利要求6所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述模块一/二均采用LSTM神经网络来处理智能体提取的序列特征;采用Leaky Rectifying Linear Unit作为激活函数,Actor网络和Critic网络的激活函数分别为公式(15)和(16):

8.根据权利要求7所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,再将风险驾驶行为预测模型和车辆风险等级预测模型的监测结果引入到Critic网络中,训练A2C模型;Actor网络的目标是最大化目标函数:J(θ)=E[logπ(A|s,θ)·Aadv(s,A)]    (17)Aadv(st,At)=Rt+γ·V(st+1|w)‑V(st+1|w)    (18)其中,Aadv(s,A)为优势函数,为了计算优势函数,使用Critic网络计算V(s|w),使用最小化时序差分误差的方法来优化Critic网络,TD error为正说明Actor输出的策略是“好的”动作,相反则是一个“不好”的动作,Actor根据此信息调整下一轮的策略;

TDerror=r+γ·V(st+1)‑V(st)    (19)2

J(w)=[Rt+γ·V(st+1|w)‑V(st|w)]    (20)。