利索能及
我要发布
收藏
专利号: 2022102560765
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种变时域预测能量管理方法,其特征在于,所述方法包括下述步骤:S100、获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;

S200、根据所述最佳预测时域,预测车速;

S300、基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;

S400、在车辆执行控制序列对应的控制指令后,进入新的状态;

所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。

2.根据权利要求1所述的方法,其特征在于,所述最佳预测时域通过DQN网络模型获得;

所述DQN网络模型实现下述动作价值函数:

Q(t)=R(stat,actt)+βmax Q(stat,actt;θ)式中:

Q表示工况t下的动作价值函数值;R表示奖励函数;stat表示车辆在工况t下的状态量;

actt表示车辆在工况t下的时域;θ为DQN网络模型的权值参数,β表示最大动作价值所占的权重。

3.根据权利要求1所述的方法,其特征在于,所述车速采用双向长短期记忆模型(Bi‑directional Long Short‑Term Memory,BiLSTM)进行预测。

4.根据权利要求1所述的方法,其特征在于,所述DQN网络模型通过下述步骤进行训练:S101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;

S102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励值和下一工况状态量;

S103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;

S104、在经验池中随机取出n个信息组,n为大于1的自然数;

S105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新DQN网络模型参数;

S106、将下一工况作为当前工况,返回S101。

5.根据权利要求4所述的方法,其特征在于,所述奖励函数如下:式中:

Efc为燃料电池系统的能耗;Eelec为动力电池的能耗,ΔPfc为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。

6.一种变时域预测能量管理装置,其特征在于,所述装置包括下述智能体模块和环境模块;

所述智能体模块获取当前车辆的状态量及其对应的时域,获得下一时刻的最佳预测时域,所述最佳预测时域长度能够不固定;

所述环境模块接收智能体模块的最佳预测时域,先根据所述最佳预测时域,预测车速;

然后基于最佳预测时域,采用动态规划算法获得车辆的最优控制序列,从而实现变时域的能量管理;最后在车辆执行控制序列对应的控制指令后,进入新的状态;

所述车辆的状态量包括动力电池荷电状态、车辆当前位置、当前车速、上一时刻预测车速。

7.根据权利要求6所述的装置,其特征在于,所述最佳预测时域通过DQN网络模型获得;

所述DQN网络模型实现下述动作价值函数:

Q(t)=R(stat,actt)+βmax Q(stat,actt;θ)式中:

Q表示工况t下的动作价值函数值;R表示奖励函数;stat表示车辆在工况t下的状态量;

actt表示车辆在工况t下的时域;θ为DQN网络模型的权值参数,β表示最大动作价值所占的权重。

8.根据权利要求6所述的装置,其特征在于,所述车速采用双向长短期记忆模型(Bi‑directional Long Short‑Term Memory,BiLSTM)进行预测。

9.根据权利要求6所述的装置,其特征在于,所述DQN网络模型通过下述步骤进行训练:S101、获取车辆的当前工况状态量及其对应时域,选择具有最大动作价值的时域;

S102、根据选择的时域,进行车速预测,在模型预测框架下依据奖励函数计算奖励值和下一工况状态量;

S103、在经验池中存储当前时刻信息组,所述信息组包括当前状态量、当前状态量对应时域、奖励值、下一时刻状态量;

S104、在经验池中随机取出n个信息组,n为大于1的自然数;

S105、对每一个信息组,计算实际动作价值,根据实际动作价值和最大动作价值的差的平方,采用梯度下降算法更新DQN网络模型参数;

S106、将下一工况作为当前工况,返回S101。

10.根据权利要求9所述的装置,其特征在于,所述奖励函数如下:式中:

Efc为燃料电池系统的能耗;Eelec为动力电池的能耗,ΔPfc为燃料电池系统的输出功率变化率,γ、λ、δ分别为权重系数。