1.基于深度强化学习的城轨混合储能系统功率动态分配控制方法,其特征在于该方法采用基于变优先级经验回放的深度强化学习算法,对经验池进行变优先级概率经验回放训练,从而提高了智能体的训练效率与寻优正确率;并进一步设计在线学习‑在线序贯决策方法,通过智能体(Agent)“试错”和“反馈”的机制进行策略在线学习与优化,最终结合低通滤波器实现混合储能功率实时分配,在有效提高牵引网节能稳压特性的同时合理控制车载超级电容充放电电流,防止过冲、过放现象,从而延长储能元件寿命;具体运行步骤如下:Step1:根据列车运行时,永磁牵引系统产生的实时牵引功率需求Phess_ref经低通滤波器得到分别得到超级电容高频功率指令Psc_ref0和电池低频功率指令Pbat_ref0;首先,设计永磁牵引系统与混合储能系统能量协调策略;车载式超级电容用于完成永磁牵引能量交换,地面式电池用于承担低频功率指令并辅助供电;地面电池采用电压电流双环级联控制,车载超级电容在此基础上增加了牵引功率前馈;
Step2:智能体Agent通过与城轨永磁牵引供电环境在线交互训练,直至奖励稳定收敛后,用于半实物实时仿真系统中实现在线序贯决策,智能体根据列车运行工况在线输出超级电容实时功率补偿量ΔPsc_ref;
在双延迟深度确定性策略梯度算法
(Twin Delayed Deep Deterministic policy gradient,TD3)的基础上,设计一种基于变优先级经验回放的的深度强化学习算法
(Variable priority experience replay twin delayed deep deterministic policy Gradient,V‑TD3),其对不同工况下对各经验样本的优先级进行自适应变化;在网络模型学习过程中,根据优先级的变化采用不同的概率从经验池中选取每批次样本数据;
优先级权值βst设置如下:
其中,βst为各工况下样本所占权重,T为系统运行总时长,St表示运行工况,分别包括恒加速‑Straction,恒功率牵引‑SConstantpower,惰行‑SIdlerunning,制动‑Sbrake四种工况,ti为系统运行在各工况下的时间;
然后根据实际工况变化设置经验池差值l如(2)所示,训练的目的在于不同运行工况下的l均能达到最小,并根据差值l的大小变化来确定优先级排序rankv;
其中r(st,at)为t时刻反馈的奖励回报,γ为奖励折扣,Q(st,at)为t时刻的动作价值;最终,通过变优先级排序rankv设置样本回放概率pv,如式(3)所示:所设计V‑TD3方法中对于重要性程度高的经验样本,每批次以较大的概率选取,同时为保证样本数据多样性,每批次以较小的概率选取少量立即奖励值小、重要性程度低的经验样本;考虑深度强化学习算法在城轨混合储能上的控制应用,分别设计环境状态、智能体动作、奖励函数;
1)永磁牵引供电环境及状态表征设计:
由于在V‑TD3算法训练过程中,每一步动作施加至环境后,环境将反馈更新的状态到智能体中;因此,在混合储能系统(Hybrid energy storage system,HESS)功率分配策略中,将HESS能量管理系统视为学习和决策的Agent,整个永磁牵引供电系统视为Agent所处的环境;Agent感知环境和自身状态,执行特定的动作,从而影响环境的状态并使得环境生成相应的奖励信号;并根据获得的反馈信号对策略进行改进,以实现整个时间段内累计奖励最大化;由于列车制动时瞬时大功率、短时大能量的特性,在实现稳压节能的同时需要考虑混合储能系统的寿命保护,因此选取直流牵引电压Udc、混合储能功率给定Phess_ref、超级电容荷电状态SOCuc、电池荷电状态SOCbat、列车运行速度ω以及加速度ac作为Agent观测到环境所处的状态S(state),状态空间表示为:S=[Udc1,Phess_ref1,SOCuc1,SOCbat1,ω1,ac1,...,Udcn,Phess_refn,SOCucn,SOCbatn,ωn,acn] (4)
2)连续动作空间选取与动作实施:
在马尔可夫决策过程(MDP)后,V‑TD3从动作空间选取的永磁牵引功率再分配动作应当能够全面覆盖HESS能量管理系统可行域,为避免其无法学习到能量管理全局最优决策,连续动作空间不可选取太小;但若选取过大,将使得V‑TD3训练效率大幅下降;因选择Agent动作Action为超级电容给定功率调整量ΔPsc_ref;策略π是状态集合S到动作集合A的映射函数:π:S→A,决定了不同系统状态下Agent的行为;考虑超级电容功率波动范围,功率调整量进行动作连续化,得到连续动作空间A如式(5)所示;
其中,Psc_ref0为超级电容功率初始给定值;
3)奖励函数设计:
奖励信号r(Reward)是环境对代理动作的反馈,Agent学习的目标即获得最大累积奖励;奖励值分布的方差不能过大,否则将使V‑TD3训练时间过长且易陷入局部最优;但奖励值分布方差取值过小可能导致V‑TD3无法有效进行学习,因此选取Agent奖励r为时间步长ΔT内稳压效率v%与节能效率e%以及SOCuc安全变化的加权和,如式(6)所示;期望稳压节能效果最优的同时SOCuc能够保持在安全范围[0.15,0.85]以内,从而实现过超级电容充过放保护;
其中,λ,μ,σ,η为权重系数,节能效率e%定义为安装混合储能系统前后变电所总输出能量变化量占无储能系统时变电所总输出能量的百分比;稳压效率v%采用直流牵引电压超出/低于限值部分的积分来评估,分别如式(7)和式(8)所示;
SOCuc‑char和SOCuc‑dis分别表示充电/放电状态下的超级电容荷电状态值;
其中, 分别为安装/未安装混合储能情况下直流牵引网电压, 分别为
安装/未安装混合储能情况下直流牵引网电流;
其中, 分别为设置的直流牵引网电压安全上限值/安全下限值,Δh/Δl分别为
列车运行工况内直流牵引电压超过安全上限值/下限值的时间;
最终,设计在线训练‑在线序贯决策方法:
1)在线训练模块中,建立城轨牵引供电仿真平台并将其视为Agent所处的环境,将能量管理算法Agent与仿真平台进行交互,且每回合列车运行速度均随机初始至安全运行范围,通过Agent的在线学习直至奖励收敛,训练出一种满足随机环境下的控制性能和调节经济性综合最优的策略;
2)在线序贯决策模块中,采用列车实时运行数据,Agent根据系统实时状态信息进行决策,并根据当前列车运行状态迅速做出最优决策,使其节能稳压效率最优,储能寿命保护最优,能够根据实时运行工况实现混合储能系统的功率动态分配;在线训练‑在线决策结合的方式极大地缩短了实验中Agent探索阶段,并且避免了因决策错误导致的安全问题,提高了能量管理算法的学习效率和安全性能;
Step3:超级电容高频功率指令Psc_ref0与智能体输出的实时功率补偿量ΔPsc_ref相加得到超级电容实时功率指令Psc_ref,再由混合储能功率需求Phess_ref与Psc_ref差值得到地面电池实时功率指令Pbat_ref;
Step4:超级电容实时功率指令Psc_ref经电流内环控制与内环超级电容电流isc比较差值并经PI控制器后用于调节控制双向DC/DC变换器开关管驱动脉冲信号;地面电池通过电压电流双环级联控制以及Kc限流环节实现充放电控制以及电池系统的限流保护。