1.一种基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,其包括训练进行和训练结束两个部分;
训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新;
经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重;
其中,针对所述无人驾驶汽车,设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,所述自我迭代过程为:定义所述BP神经网络的输入特征量s为:
其中,edis为所述无人驾驶汽车的横向误差;eyaw为所述无人驾驶汽车的航向角误差;
为所述无人驾驶汽车的横向误差变化率; 为所述无人驾驶汽车的航向角误差变化率;k为路径曲率;
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi‑1+bi) (2)其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi‑1为第i‑1层的神经元值;
定义所述BP神经网络的第一层输出h1为:
h1=s (3)定义驾驶员通过所述BP神经网络最终输出转角δf为:δf=net(s) (4)其中,net(s)为所述BP神经网络的网络函数;
定义第一层的激活函数σ1为:
定义第二、三层的激活函数σ2、σ3均为:
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:其中,m1为选取样本数目, 为第i1个无人驾驶汽车样本经过所述BP神经网络net输出的前轮目标转角, 为第i1个无人驾驶汽车样本的前轮的实际转角;
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络;
迭代训练所述前轮目标转角
权重分配方法为:
选择输入特征量s作为强化学习算法的状态量:
设计奖励函数为:
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,τδf为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项代表轨迹跟踪精度,后三项 代表乘坐舒适性;
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目,在此所述驾驶员模型的权重wdriver,所述控制器的权重wmpc通过式(41)间接获得:wdriver+wmpc=1 (41)
所述无人驾驶汽车的最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpcwdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
2.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述BP神经网络具体结构为下表所示:
3.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,根据车辆二自由度动力学模型和牛顿第二定律可得:其中,m为所述无人驾驶汽车的车辆质量,为车辆侧向加速度,为车辆纵向速度,为车辆横摆角速度, 为车辆前轮侧向力, 为车辆后轮侧向力,为车辆纵向加速度,为车辆侧向速度, 为车辆前轮纵向力, 为车辆后轮纵向力,为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离;
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)‑(10)基础上可以得到:其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度, 为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,为车辆全局坐标系下横坐标方向速度,为车辆全局坐标系下纵坐标方向速度;为车辆航向角;
设置车辆状态量ζ为:
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)则式(11)‑(15)表达的非线性模型可以写为:对该非线性模型进行线性化处理,得到:
其中:
其中, 为当前时刻t的纵向速度, 为状态方程关于车辆侧向速度 的偏导, 为车辆纵向速度 的偏导,δf,t‑1为上一时刻t‑1的车辆前轮转角, 为状态方程关于车辆纵向速度 的偏导, 为当前时刻t的横向速度, 为状态方程关于横摆角速度 的偏导, 为当前时刻t的车辆横摆角速度。
4.如权利要求3所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,在实际控制算法部署中,需要把式(19)转为离散状态函数:其中, 为采样点k+1的离散状态函数, 为采样点k的离散状态函数; 为采样点k的车辆实际控制量u(k)与车辆目标控制量u(k,ref)之间的车辆控制量偏差;
A(k) = I+ΔT.A (23)
B(k) =ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔;
将式(22)进一步处理,将控制实际量转化为增量形式:其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数;
为采样点k‑1的车辆实际控制量u(k‑1)与车辆目标控制量u(k‑1,ref)之间的车辆控制量偏差;
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)+ΘsΔU(k) (30)其中:
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域;
Δu(k+1)为采样点k+1相对上一时刻的车辆控制量增量,Δu(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量。
5.如权利要求4所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,设定求解所述目标函数J:i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵;
对所述前轮目标转角的控制量设定约束方程:
Δumin≤Δu≤Δumax (36)umin≤u≤umax (37)αmin≤α≤αmax (38)对目标函数(35)在约束方程(36)‑(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;
umin、umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
6.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述DQN智能体的DQN超参数设置如下表所示:参数 值
采样时间(s) 0.1~0.25
单次回合时间(s) 25~35
网络学习率 0.001~0.005
更新参数间隔 1000~2000
经验池数目 2000~5000
采样数目 32~64
。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,实现如权利要求1至6中任意一项所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。