1.一种变时域预测能量管理方法,其特征在于,所述方法包括下述步骤:S100、获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;
S200、根据所述最佳预测时域,预测车速;
S300、基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;
S400、在车辆执行控制序列对应的控制指令后,进入新的状态;
所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
2.根据权利要求1所述的方法,其特征在于,所述最佳预测时域通过DQN网络模型获得;
所述DQN网络模型实现下述动作价值函数:
Q(t)=R(stat,actt)+βmax Q(stat,actt;θ)式中:
Q表示工况t下的动作价值函数值;R表示奖励函数;stat表示车辆在工况t下的状态量;
actt表示车辆在工况t下的时域;θ为DQN网络模型的权值参数,β表示最大动作价值所占的权重。
3.根据权利要求1所述的方法,其特征在于,所述车速采用双向长短期记忆模型(Bi‑directional Long Short‑Term Memory,BiLSTM)进行预测。
4.根据权利要求1所述的方法,其特征在于,所述DQN网络模型通过下述步骤进行训练:S101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;
S102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励值和下一工况状态量;
S103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;
S104、在经验池中随机取出n个信息组,n为大于1的自然数;
S105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新DQN网络模型参数;
S106、将下一工况作为当前工况,返回S101。
5.根据权利要求4所述的方法,其特征在于,所述奖励函数如下:式中:
Efc为燃料电池系统的能耗;Eelec为动力电池的能耗,ΔPfc为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。
6.一种变时域预测能量管理装置,其特征在于,所述装置包括下述智能体模块和环境模块;
所述智能体模块获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;
所述环境模块接收智能体模块的最佳预测时域,先根据所述最佳预测时域,预测车速;
然后基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;最后在车辆执行控制序列对应的控制指令后,进入新的状态;
所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。
7.根据权利要求6所述的装置,其特征在于,所述最佳预测时域通过DQN网络模型获得;
所述DQN网络模型实现下述动作价值函数:
Q(t)=R(stat,actt)+βmax Q(stat,actt;θ)式中:
Q表示工况t下的动作价值函数值;R表示奖励函数;stat表示车辆在工况t下的状态量;
actt表示车辆在工况t下的时域;θ为DQN网络模型的权值参数,β表示最大动作价值所占的权重。
8.根据权利要求6所述的装置,其特征在于,所述车速采用双向长短期记忆模型(Bi‑directional Long Short‑Term Memory,BiLSTM)进行预测。
9.根据权利要求6所述的装置,其特征在于,所述DQN网络模型通过下述步骤进行训练:S101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;
S102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励值和下一工况状态量;
S103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;
S104、在经验池中随机取出n个信息组,n为大于1的自然数;
S105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新DQN网络模型参数;
S106、将下一工况作为当前工况,返回S101。
10.根据权利要求9所述的装置,其特征在于,所述奖励函数如下:式中:
Efc为燃料电池系统的能耗;Eelec为动力电池的能耗,ΔPfc为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。