利索能及
我要发布
收藏
专利号: 2024109046517
申请人: 湖南科技学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于强化学习的云计算平台实时CPU负载平衡方法,其特征在于,包括如下步骤:S1、在云计算平台上部署数据收集模块,实时监控各虚拟机和物理节点的CPU使用率、任务队列长度及其他关键性能指标,构建实时CPU负载数据集;

S2、将收集到的实时CPU负载数据集通过高速数据传输通道输入至负载分析模块,解析和预处理实时CPU负载数据集;

S3、在负载分析模块中,采用滑动窗口技术对预处理后的实时CPU负载数据集进行时序分析,识别当前的资源利用模式和潜在的负载高峰;

S4、基于时序分析结果,利用深度Q网络模型构建负载平衡策略决策模型,定义状态空间、动作空间和奖励函数;

S5、在深度Q网络模型训练过程中,利用历史CPU负载数据集和模拟环境进行多次迭代,优化策略;

S6、将经过训练和优化的负载平衡策略部署到决策模块,通过策略生成具体的资源分配和任务调度方案;

S7、在决策模块中,实时计算各虚拟机和物理节点的负载平衡策略,并根据当前负载状态调整CPU资源分配,执行任务迁移和负载均衡操作;

S8、动态调整过程中,使用快速迁移算法和增量式资源分配策略,确保在不影响系统性能的前提下完成资源调整;

S9、持续监控调整后的负载情况,通过反馈机制将实时负载状态和策略执行效果反馈给强化学习模块,进行策略的在线更新和改进;

S10、重复执行步骤S1至S9,逐步提高云计算平台的实时CPU负载平衡效果;

所述S4包括以下步骤:

S41、基于时序分析结果,定义负载平衡策略决策模型的状态空间S,其中状态s∈S表示各虚拟机和物理节点在特定时间t的资源利用情况,包括CPU使用率 任务队列长度及其他关键性能指标S42、定义动作空间A,其中动作a∈A表示负载平衡策略的具体操作,包括任务迁移和资源分配调整;

S43、构建深度Q网络模型Q(s,a;θ),采用多层神经网络结构,其中参数θ为神经网络的权重;

S44、定义奖励函数R(s,a),用于评估每个状态‑动作对的即时奖励,奖励函数综合考虑资源利用率、响应时间和系统性能:R(s,a)=α·Ueff(s,a)‑β·Tresp(s,a)+γ·Psys(s,a);

其中,Ueff(s,a)表示资源利用率,Tresp(s,a)表示响应时间,Psys(s,a)表示系统性能,α、β、γ为权重系数;

S45、利用经验回放技术,存储过去的状态转移样本(s,a,r,s')到回放缓冲区,从中随机抽取小批量样本(sj,aj,rj,s'j)进行模型训练,更新深度Q网络模型参数θ:其中,η为学习率,m为小批量样本数,yj为目标Q值,计算公式为:‑

yj=rj+γ1maxa'Q(s'j,a′;θ);

其中,γ1为折扣因子,θ为目标网络的参数;

S46、每隔固定步数,将当前Q网络的参数θ同步到目标网络的参数θ ,确保训练的稳定性;

S47、在深度Q网络模型训练完成后,将其用于实时负载平衡决策,根据当前状态st选择最优动作at,实时调整CPU资源分配和任务调度,优化云计算平台的资源利用率和系统性能;

所述S5包括以下步骤:

S51、收集历史CPU负载数据集H(t),其中包含各虚拟机和物理节点在不同时间段的CPU使用率Ui(t)、任务队列长度Qi(t)及其他关键性能指标Ki(t);

S52、在模拟环境中,初始化云计算平台的资源配置和任务分布状态,基于历史CPU负载数据集H(t)构建模拟场景;

S53、在每个模拟场景中,利用深度Q网络模型 进行策略优化,定义状态s为当前模拟场景下的资源利用情况,动作a为负载平衡策略的具体操作;

S54、对每个状态‑动作对(s,a),计算其即时奖励 并更新Q值:'

其中,α'为学习率,γ1为折扣因子,s'为执行动作a后的下一个状态;

S55、利用经验回放技术,存储模拟环境中的状态转移样本 到回放缓冲区,从中随机抽取小批量样本进行训练,优化深度Q网络模型参数θ':其中,η'为学习率,m'为小批量样本数,y'j为目标Q值,计算公式为:S56、在多次迭代训练中,每隔固定步数将当前Q网络的参数θ'同步到目标网络的参数‑θ';

S57、在训练过程中,评估深度Q网络模型的策略适应性和效率,根据评估结果调整模型参数和奖励函数,优化负载平衡策略;

S58、训练完成后,将优化后的深度Q网络模型用于实际环境中的实时负载平衡决策;

所述S6包括以下步骤:

S61、将经过训练和优化的深度Q网络模型 部署到决策模块,初始化当前系统的状态为各虚拟机和物理节点的实时资源利用情况;

S62、在每个决策时刻t,输入当前状态到深度Q网络模型,计算各可能动作的Q值Q(st,a;

θ'),并选择Q值最大的动作at作为当前负载平衡策略:S63、基于选定的动作at,生成具体的资源分配和任务调度方案,方案包括任务迁移、CPU资源重新分配等操作;

S64、执行资源分配和任务调度方案,将选定的任务从过载虚拟机或物理节点迁移至资源充足的节点,并重新分配CPU资源,调整各节点的负载;

S65、在执行过程中,监控资源分配和任务调度方案的执行效果,记录执行后的系统状态st+1及其对应的资源利用情况、任务队列长度及其他关键性能指标;

S66、将执行结果和新的系统状态st+1反馈给深度Q网络模型,用于下一次决策时的状态更新和策略优化;

S67、根据实际执行效果,定期评估和调整深度Q网络模型的参数θ ,确保模型在动态变化的云计算环境中保持负载平衡决策;

S68、重复执行步骤S62至S67,持续优化云计算平台的资源利用率和系统性能,确保系统在不同负载情况下均能实现实时CPU负载平衡。

2.根据权利要求1所述的一种基于强化学习的云计算平台实时CPU负载平衡方法,其特征在于,所述S1包括以下步骤:S11、在云计算平台上设置多个数据收集模块,分别部署在各虚拟机和物理节点上,实时监控CPU使用率、任务队列长度及其他关键性能指标;

S12、每个数据收集模块通过定期采样的方式,记录各虚拟机和物理节点的CPU使用率Ui(t)、任务队列长度Qi(t)及其他关键性能指标Ki(t);

S13、将记录的数据按时间戳t进行标记,构建实时CPU负载数据集D(t),数据集包含以下内容:D(t)={(Ui(t),Qi(t),Ki(t))∣i=1,2,…,N};

其中,Ui(t)表示第i个虚拟机或物理节点在时间t的CPU使用率,Qi(t)表示第i个虚拟机或物理节点在时间t的任务队列长度,Ki(t)表示第i个虚拟机或物理节点在时间t的其他关键性能指标,N为虚拟机或物理节点的总数。

3.根据权利要求2所述的一种基于强化学习的云计算平台实时CPU负载平衡方法,其特征在于,所述S2包括以下步骤:S21、通过高速数据传输通道,将每个数据收集模块记录的实时CPU负载数据集D(t)传输至中央负载分析模块;

S22、在中央负载分析模块中,接收传输过来的实时CPU负载数据集D(t),对数据进行初步解析,将不同时间戳t的数据按顺序排列;

S23、对解析后的实时CPU负载数据集D(t)进行数据清洗,去除可能存在的重复数据、异常值和噪声数据;

S24、对清洗后的数据进行标准化处理,将各虚拟机和物理节点的CPU使用率Ui(t)、任务队列长度Qi(t)及其他关键性能指标Ki(t)及其他关键性能指标Ki(t)转换为统一的尺度;

S25、将标准化处理后的实时CPU负载数据集 存储在中央数据库中。

4.根据权利要求3所述的一种基于强化学习的云计算平台实时CPU负载平衡方法,其特征在于,所述S3包括以下步骤:S31、在负载分析模块中,采用滑动窗口技术对预处理后的实时CPU负载数据集 进行时序分析,设置滑动窗口的长度为W,窗口内数据点数量为n;

S32、在时间t时刻,定义滑动窗口Wt包含从时间t‑W+1到t的数据点:其中,Wt表示在时间t时刻的滑动窗口,包含从时间t‑W+1到t的数据点;

S33、在每个滑动窗口内,对各虚拟机和物理节点的CPU使用率 进行时序分析,计算其均值 和方差其中, 表示标准化后的CPU使用率, 表示滑动窗口内CPU使用率的均值,表示滑动窗口内CPU使用率的方差;

S34、对各虚拟机和物理节点的任务队列长度 和其他关键性能指标 进行类似的时序分析,计算其均值和方差;

S35、基于滑动窗口内的均值和方差,识别当前资源利用模式和潜在的负载高峰,定义资源利用模式为各指标的均值向量其中, 表示滑动窗口内的均值向量,包括CPU使用率的均值 任务队列长度的均值 及其他关键性能指标的均值S36、当检测到某个虚拟机或物理节点的CPU使用率 或任务队列长度 超过预设阈值θU或θQ时,标记该节点为潜在的负载高峰。

5.一种基于强化学习的云计算平台实时CPU负载平衡系统,用于执行权利要求1‑4任一项所述的一种基于强化学习的云计算平台实时CPU负载平衡方法,其特征在于,包括以下模块:数据收集模块:部署在云计算平台上的各虚拟机和物理节点,实时监控CPU使用率、任务队列长度及其他关键性能指标,并通过定期采样记录数据,生成实时CPU负载数据集,数据收集模块实时监控和记录各虚拟机和物理节点的CPU使用率、任务队列长度及其他关键性能指标;

高速数据传输通道:用于将各虚拟机和物理节点的数据收集模块所记录的实时CPU负载数据集传输至中央负载分析模块,高速数据传输通道将记录的数据实时传输至中央负载分析模块;

负载分析模块:接收并解析通过高速数据传输通道传输的实时CPU负载数据集,采用滑动窗口技术对预处理后的数据进行时序分析,计算各虚拟机和物理节点的资源利用模式和潜在负载高峰,负载分析模块采用滑动窗口技术对预处理后的数据进行时序分析,识别资源利用模式和潜在负载高峰;

强化学习模块:基于负载分析模块的时序分析结果,利用深度Q网络模型构建负载平衡策略决策模型,包括定义状态空间、动作空间和奖励函数,在训练过程中利用历史CPU负载数据集和模拟环境进行多次迭代,强化学习模块基于时序分析结果,通过深度Q网络模型构建并优化负载平衡策略;

决策模块:将经过训练和优化的深度Q网络模型部署到该模块中,实时计算各虚拟机和物理节点的负载平衡策略,根据当前负载状态生成具体的资源分配和任务调度方案,并执行任务迁移和资源重新分配操作,决策模块根据优化后的策略生成资源分配和任务调度方案,并执行任务迁移和资源重新分配;

反馈机制模块:在执行资源分配和任务调度方案后,持续监控调整后的负载情况,将实时负载状态和策略执行效果反馈给强化学习模块,以进行策略的在线更新和改进,反馈机制模块监控和记录执行效果,并将结果反馈给强化学习模块进行策略更新和改进。