利索能及
我要发布
收藏
专利号: 2019112431792
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于spark框架的短期电力负荷快速预测方法,其特征在于,包括下述步骤:

步骤一,利用spark技术实现BIRCH算法的并行化算法对历史数据进行聚类,具体如下:(1)使用python爬虫收集某城市某一时间段内的历史电力负荷数据和对应的历史天气数据从而形成原始数据集,其中负荷数据的时间粒度为5分钟,天气数据时间粒度为1小时,并将其存储在HDFS上,该HDFS是一种Hadoop分布式文件系统;

(2)从HDFS中将原始数据集读取到spark集群的内存中转换为所需的弹性分布式数据集RDD,对数据进行缺失数据填充、数据归一化和特征提取,选择的主要特征有时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值和前一天同期负荷值,最后生成训练样本集;

(3)将训练样本集数据分发给spark集群中的每个worker,每个worker在各自的分区建立自己的聚类特征树CF‑Tree;

(4)将每个分区建立的聚类特征树CF‑Tree进行合并,生成一颗大的聚类特征树CF‑Tree,该聚类特征树CF‑Tree将作为异常数据检测模型;

步骤二,使用基于spark技术的lightGBM算法训练预测模型的过程,具体如下:(1)将历史负荷数据和天气数据读取到spark内存中生成原始数据集;

(2)特征工程:①数据清洗:补齐负荷数据和天气数据中的缺失值;②特征选择:选择的主要特征有时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值、前一天同期负荷值和前5分钟的负荷值,由于天气信息的时间粒度为1小时,负荷数据的时间粒度为5分钟,所以使用KNN算法去补全负荷数据中缺失的天气信息;③对特征进行归一化处理;

(3)模型训练:①将步骤二(1)中所获得的原始数据集切分为训练集和测试集;②在spark平台上实现lightGBM算法的并行化,使用训练集对并行化后的算法进行训练,对模型进行参数调优,最后得到负荷预测模型;

步骤三,实时负荷异常检测和负荷预测,具体如下:

(1)将步骤一和步骤二所生成的异常数据检测模型和负荷预测模型发送到spark streaming集群;

(2)使用kafka集群接收各种终端实时采集到的带有实时负荷值和天气信息的数据,spark streaming集群接收kafka的数据并对数据进行处理,将处理后的数据插入到聚类特征树CF‑Tree中,如果某条数据点在插入过程中导致聚类特征树CF‑Tree的叶子节点数量增加,则判定该条数据中负荷值为异常值,反之判定为正常值;

(3)从原始数据集和实时数据流中提取所需负荷值和天气信息,其中所需信息包含时间特征、温度、湿度、露点、天气状况、前两天的同期负荷值、前一天同期负荷值和前五分钟的负荷值信息,其中前五分钟的负荷值为步骤三(2)中kafka集群接收到的实时负荷值;

(4)将提取后的数据输入到负荷预测模型中,预测下一个五分钟的负荷值,使用RMSE、R2和模型训练时间来评估模型效果。