1.一种基于路段安全级别DQN的车辆无人驾驶方法,其特征在于,包括:S1、建立基于DQN算法的车辆控制行为神经网络和目标神经网络;所述车辆控制行为神经网络和目标神经网络的结构相同,输入为状态值,输出为在输入状态值下执行各种动作的Q值;
所述行为神经网络和目标神经网络的状态空间为车辆自身状态和车辆周边路况信息构成的向量;所述车辆自身状态包括车辆自身的位置、速度、行驶方向;所述车辆周边路况信息包括车辆周边运动物体的状态和车辆周边静止物体的状态;所述车辆周边运动物体的状态包括车辆周边运动物体的位置、速度、运动方向;所述车辆周边静止物体的状态包括车辆周边静止物体的位置;
所述行为神经网络和目标神经网络的动作空间为车辆转向角度、加速度、刹车强度组成的向量;
S2、对行为神经网络的参数w进行随机初始化,将目标神经网络的参数θ初始化为w;初始化时间步t=0,采集车辆自身状态和车辆周边路况信息,建立初始状态值st;初始化经验回放池为空;
S3、将st输入行为神经网络中,选择使Q(st,a;w)取最大值的动作amax作为当前时间的最优动作,即:amax=argmaxaQ(st,a;w),其中Q(st,a;w)表示行为神经网络在参数w下根据状态st动作a输出的Q值;
采用贪婪算法确定当前车辆的驾驶动作at:以预设概率ε选择动作amax作为所述车辆的驾驶动作at,以1‑ε作为概率在预设动作集中随机选取一个动作作为所述车辆的驾驶动作at;
S4、执行动作at并计算奖励rt和状态st+1;
将Et=(st,at,rt,st+1,λt)作为当前转移样本存储于经验回放池中;λt为车辆当前位置的路段安全级别;根据λt计算所述转移样本Et的回放优先级qt;
如果mod(t,K)为0,执行步骤S5‑S7;否则,令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3;K为预设的回放训练周期;
S5、计算当前经验回放池中每个转移样本的归一化回放优先级:α为非均匀采样强度,α≥0;N为经验回放池中当前转移
样本的总数;qτ为经验回放池中第τ个样本的回放优先级;
S6、对经验回放池中的转移样本进行非均匀采样,每个转移样本被选中的概率为该转移样本的归一化回放优先级;根据选中的转移样本 计算损失函数,并通过最小化损失函数训练行为神经网络的参数w;
S7、如果mod(t,C)为0,使用行为神经网络的参数w更新目标神经网络的参数θ;mod为取余运算,C为预设的参数更新周期;令t加一,根据当前车辆自身状态和车辆周边路况信息更新st,跳转至步骤S3继续下一时间步的训练,直至行为神经网络收敛;
所述行为神经网络收敛是指,从经验回放池中随机采集[N/R]个转移样本计算的损失函数值收敛于预设的误差阈值;R≥1,[]为取整函数;
S8、车辆采用无人驾驶模式行驶时,根据车辆自身状态和车辆周边路况信息构建车辆的实时状态值,将所述实时状态值输入训练好的目标神经网络中,选择使目标神经网络输出Q值取最大值的动作,作为车辆的驾驶动作,执行该驾驶动作;重复本步骤,直至车辆到达目的地。
2.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述车辆自身状态和车辆周边路况信息采用车用无线通信技术V2X来获取。
3.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述车辆自身状态和车辆周边路况信息采用计算机视觉技术来获取。
4.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述奖励rt的计算为:判断车辆执行at过程中的行驶状态,根据所述行驶状态确定奖励rt的值:如果车辆执行at发生碰撞或者驶出道路,rt=r1,r1<0;
如果车辆执行at安全顺利到达目的地,rt=r2,r2>0;
如果车辆执行at后与前面车辆或者后面车辆的剩余碰撞时间处于警戒范围之内,rt=r3,r3<0;
如果车辆执行at闯红灯或者违反交通规则,rt=r4,r4<0;
其他行驶状态,rt=(|vtcos(ψt)|‑|vtsin(ψt)|)Sgn(dth‑dt);其中vt为当前时间步车辆自身的速度,ψt为当前时间步车辆行驶方向与车道中轴线的夹角;dt为车辆与最近邻路点之间的距离,所述最近邻路点为与车辆当前位置最近的路点,所述路点设置于规划路径的车道中线上;dth为预设的车辆偏移路点距离阈值。
5.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述转移样本Et的回放优先级的计算步骤为:S4.1、计算所述转移样本Et的时间差分误差:
TdErrt=|rt+γQ(st+1,a*;θ)‑Q(st,at;w)|其中γ为折扣因子,Q(st,at;w)为行为神经网络根据状态st动作at输出的Q值,a*为行为神经网络在状态st+1下Q值最大时的动作,a*=arg maxaQ(st+1,a;w);Q(st+1,a*;θ)为目标神经网络在状态st+1下执行动作a*输出的Q值;
k
S4.2、计算转移样本Et的回放优先级:qt=λt·TdErrt;
其中λt为车辆当前位置所处路段的安全级别,λt≥1;k为转移样本回放优先级修正参数,k>0。
6.根据权利要求5所述的车辆无人驾驶方法,其特征在于,转移样本回放优先级修正参数k按如下方式取值:方式一:k为大于0的常数;
方式二:k随时间步t线性调整:
其中μ为转移样本回放优先级修正速率,μ>0;Tth为转移样本回放优先级修正时间步阈值。
7.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述损失函数为:其中 表示行为神经网络在状态 下Q值最大时的动作;γ为c
折扣因子;p 为选中的转移样本的归一化回放优先级;N为经验回放池中当前转移样本的总数。
8.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述损失函数为:其中β为损失函数权重调整强度,0≤β≤1。
9.根据权利要求8所述的车辆无人驾驶方法,其特征在于,损失函数权重调整强度β按如下方式取值:方式A:β为[0,1]范围内的常数;
方式B:β随时间步t线性调整:
T′th为损失函数权重调整强度修正时间步阈值。
10.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述步骤S4中,采用sumtree树结构来保存转移样本Et的回放优先级qt;所述sumtree树结构的每个叶子节点与经验回放池中的转移样本对应,建立叶子节点与转移样本的索引;叶子节点的取值为对应转移样本的回放优先级。