利索能及
我要发布
收藏
专利号: 2020104551526
申请人: 内蒙古工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-12-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.数据中心主动通风地板的智能控制方法,其特征在于,包括如下步骤:步骤1,在机架入风口处设置一定数量的用于监测机架入风口温度分布的温度传感器一,在主动通风地板下设置一个用于监测主动通风地板下送风温度的温度传感器二;

步骤2,对数据中心机架热点问题建立马尔可夫决策过程模型,所述模型由系统状态φt、行为空间 奖励Rt+1和价值函数Q(φt,at)四部分组成;

其中:t时刻系统状态φt定义为带有历史的机架入风口温度分布集合,其公式为:φt={st-p,…,sx…,st-1,st},其中

其中st-p、sx、st-1、st分别为t-p、x、t-1、t时刻机架入风口温度分布,x∈[t-p,t],p为历史长度;Ti为编号为i的温度传感器一的读数, 为温度传感器一的集合,为温度传感器一的总数;

行为空间 定义为离散化的PWM信号占空比值,其公式为:

其中a是 中某个行为,DC为PWM信号占空比,max(DC)为最大占空比,DDRL为DC离散化等分比,k表示某个行为中DDRL的个数;

奖励Rt+1由机架入风口温度分布均匀程度的量化指标及主动通风地板风扇能耗两部分构成,其公式为:其中Rt+1为t时刻系统采取某行为后所得的奖励, 表示机架入风口温度分布均匀程度,该式值全为负,越接近0,表明机架入风口温度分布越均匀,其中Tt,i为t时刻编号为i的传感器一的温度读数, 为t时刻机架参考温度, Tt,under为t时刻所述温度传感器二的读数,ΔT为根据主动通风地板上下冷热气流混合程度设置的固定温度差,为正数;-(Aref×DCt)3表示主动通风地板风扇能耗,该式的值全为负,越接近0,表明风扇能耗越低,其中Aref为保持与机架入风口温度分布均匀程度同一量级的参考行为值,DCt为t时刻PWM信号方波占空比;

价值函数Q(φt,at)为行为价值函数,其公式为:

其中价值函数Q(φt,at)称为Q函数, 为t时刻系统采取的行为, 为期望函数,y为相对于t时刻的未来时刻,Rt+y+1表示系统在t+y时刻采取行为后获得的奖励,γ表示衰减因子,表示在某状态下采取某行为对系统未来奖励即环境影响的重视程度,0≤γ<1,γy为γ的y次方,是t+y时刻Rt+y+1的衰减因子;

马尔可夫决策过程模型被总结为:在任意t时刻系统状态下,通过选择最优行为,使得系统累计奖励最大化,公式为:约束于

其中,γt是t时刻系Rt+1的衰减因子;

步骤3,对所述模型求解,通过不断探索和学习机架入风口温度分布与主动通风地板风扇转速间的复杂关系,最终根据机架入风口温度分布,产生最优PWM信号占空比值,调节主动通风地板风扇转速,使得机架入风口温度分布均匀化,缓解机架热点问题。

2.根据权利要求1所述数据中心主动通风地板的智能控制方法,其特征在于,所述步骤

2中,计算得到最优Q函数,即可根据最优Q函数在任意t时刻系统状态下选择最优行为,使累计奖励最大化,最优Q函数计算公式为:在任意t时刻,最优行为选择公式为:

其中Q*(φt,at)表示最优Q函数,φt+1表示t+1时刻的系统状态,a表示在t+1时刻系统可能采取的所有行为中的任一行为,亦即行为空间 中的某一行为。

3.根据权利要求1所述数据中心主动通风地板的智能控制方法,其特征在于,所述步骤

3中,采用基础智能算法、样本值变体智能算法和结构变体智能算法求解模型,通过不断决策积累(φt,at,Rt+1,φt+1)样本记录训练神经网络,使得神经网络能够近似Q函数,进而选择最优行为,使得所述模型的累计奖励最大化,其中φt+1表示t+1时刻的系统状态。

4.根据权利要求3所述数据中心主动通风地板的智能控制方法,其特征在于,所述基础智能算法,使用两个结构相同的神经网络近似Q函数,一个用于近似Q样本函数,计算Q样本值,称为targ网络;另一个用于近似Q预测函数,计算Q预测值,称为eval网络;利用所述样本记录计算Q样本值与Q预测值之差,训练更新神经网络,所述Q样本值计算公式为:所述样本值变体智能算法中,Q样本值计算公式为:

其中Qt+1,target为Q样本值,Rt+1和φt+1取自所述样本记录,Q(φt+1,a;θt,target)为targ网络输出的Q样本集合, 为targ网络输出的Q样本集合中,使Qeval(φt+1,a;θt,eval)最大的行为对应的Q样本值,Qeval(φt+1,a;θt,eval)为eval网络输出的Q预测集合,a表示在t+1时刻系统可能采取的所有行为中的任一行为,亦即行为空间 中的某一行为,θt,eval为t时刻eval网络参数集合,θt,target为t时刻targ网络参数集合;

所述神经网络更新方式如下:

其中δt+1为Q样本值与对应Q预测值之差,Q(φt,at;θt,eval)为eval网络输出的Q预测集合中,at对应的Q预测值,φt和at取自所述样本记录,θt+1,eval为t+1时刻eval网络参数集合,为 关于θt,eval的梯度,α为神经网络学习步长,θtarget是时刻t为N的包括0在内的整数倍时的targ网络参数集合,θeval是时刻t为N的包括0在内的整数倍时的eval网络参数集合。

5.根据权利要求4所述数据中心主动通风地板的智能控制方法,其特征在于,所述结构变体智能算法,使用两个结构相同的神经网络,在每个神经网络的倒数第二层设置DN层,DN层分V段和A段,其中V段神经元结点数为1,表示t时刻系统状态,A段神经元个数为行为空间中的元素个数,表示在该系统状态下可能采取的所有行为,DN层计算公式为:其中,Q(φt,at;θt,θt,V,θt,A)为神经网络最终输出,φt和at取自所述样本记录,θt为t时刻,结构变体智能算法神经网络DN层前的网络参数集合,θt,V为t时刻DN层V段参数,θt,A为t时刻DN层A段参数,V(φt;θt,θt,V)为V段输出,A(φt,at;θt,θt,A)为A段中at对应的输出值,A(φt,a';θt,θt,A)为A段全部输出,a'表示在状态φt下,系统可能采取的所有行为, 为行为空间中元素个数;

之后,采取与所述样本值变体智能算法相同的Q样本值计算及神经网络更新方式训练更新神经网络。

6.根据权利要求1所述数据中心主动通风地板的智能控制方法,其特征在于,所述智能控制方法的运行逻辑如下:

1:在不同控制算法中,构建和初始化不同神经网络,并令targ网络参数与eval网络参数相同;设置所述样本记录缓存数组;设置参考温度

2:设置初始时刻t=0,缓存数组中样本记录的时刻记为τ;初始行为探索概率ε,探索率随t减少量Δε,最小探索概率εmin;

3:在Z个时刻内随机选择行为,并将每个时刻产生的记录(φz∈[0,Z),az∈[0,Z),Rz+1∈[0,Z],φz+1∈[0,Z])存入缓存数组;

4:获取初始机架入风口温度分布

5:循环体开始;

6:获取p个历史机架入风口温度分布,共同组成一个系统状态φt={st-p,…,st-1,st};

7:若t=0,则选择行为at=max(DC)并转9,否则转8;

8:使用如下公式选择行为:

9:执行at,PC发送占空比指令到微控制器,改变风扇转速,并获得系统下一时刻机架入风口温度分布st+1,根据权利要求4中奖励公式计算Rt+1;

10:根据最新的p条温度分布历史,组成下一状态φt+1={st+1-p,…,st,st+1},并将(φt,at,Rt+1,φt+1)存入缓存数组;

11:从缓存数组中随机抽取Y条样本记录(φτ,aτ,Rτ+1,φτ+1);

12:根据不同控制算法,利用Y条记录,计算Q样本值,公式如下:

13:使用学习步长α和如下损失函数更新eval网络:

14:探索概率ε取ε-Δε和εmin中的最小值;

15:如果t mod N=0,则targ网络复制eval网络参数,否则转16;

16:时刻t增加1;

17:循环体结束。