利索能及
我要发布
收藏
专利号: 2023101405220
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大数据自适应GA‑PSO改进LSTM预测气温方法,其特征在于,包括以下步骤:S1、获取历史气象数据,对数据进行解析,将解析后的气象数据存储在数据库中;

S2、对存储的气象数据进行异常值处理和缺失值处理,对处理后的数据进行标准化处理,最终得到归一化气象数据;

S3、对步骤S1得到的解析后的气象数据进行one‑hot编码,并且提取像关于预测气温的特征;

S4、根据步骤S3得到的预测气温的特征构建自适应GA‑PSO‑LSTM预测模型;

S5、将步骤S2得到的归一化气象数据导入GA‑PSO‑LSTM预测模型,模型输出数据即为预测的温度。

2.根据权利要求1所述一种基于大数据自适应GA‑PSO改进LSTM预测气温方法,其特征在于,步骤S1具体包括以下步骤:S11、利用Python对欧洲中期天气预报中心提供的API对数据进行下载,并且定时开始执行启动Weather Research and Forecasting Model的代码;定时对下载好的NC/GRIB文件通过Python进行解析成CSV格式文本数据,保存在本地;

S12、使用大数据框架对数据进行处理,其中Zookeeper框架用来协调大数据框架之间的关系,大数据框架使用之前须在Zookeeper中进行注册;此时,使用使用Flume大数据框架检测文件夹中出现新的CAV文本数据,之后使用Kafka框架对数据进行缓冲,再次通过flume将缓冲后的数据写入到Hbase数据库中进行存储。

3.根据权利要求1所述一种基于大数据自适应GA‑PSO改进LSTM预测气温方法,其特征在于,步骤S2具体包括以下步骤:S21、通过Hadoop框架读取数据库中的气象数据,首先对气象数据进行Kmeans聚类分析,假设一组气象数据为  ,将之记为集合D,若将数据分为k类,则簇为,记为集合C,气象数据需满足 ,集合中两个簇的交集为空集,并且 ,由此数据以分成k类;

其次将集合C按照每个簇以元素多少从大到小按照顺序排列,之后将其分为大簇和小簇,分割公式如下:式中 选取0.9,表明大簇的数据量要占整体数

据90%, 选取5,表示上一个簇是下一个簇的5倍;

根据分割公式将簇分为大簇和小簇,其中为大簇 ,小簇

,b为将簇集合C分为大簇和小簇的分界,

最后计算异常分数,若气象数据在大簇中时,则计算此数据与所在大簇中心点的距离,若气象数据在小簇中时,则计算此数据与之最近的大簇数据中心的聚类,此为异常分数,若值越大,则说明此值为异常值,需要填充处理,计算公式如下:S22、

对于步骤S21中出现的异常值和气象数据读取后的缺失值进行填充,从k个非缺失值中有放回的抽取k个值,将其作为填充值集合,如果需要填充n个异常值或缺失值,则从填充值集合中随机抽取值进行填充;

S23、训练预测模型消除各个气象属性之间差异性,公式表达如下:式中, 为气象数据归一化后的数值, 为单个

气象特征数据中最小的值, 则与 相反。

4.根据权利要求1所述一种基于大数据自适应GA‑PSO改进LSTM预测气温方法,其特征在于,步骤S3具体包括以下步骤:S31、对步骤S1中解析后的气象数据进行one‑hot编码,将解析后的气象数据的时间月份分为四部分,分别是3月 5月为春季,编码为[1,0,0,0],6月 8月为春季,编码为[0,1,0,~ ~

0],9月 11月为春季,编码为[0,0,1,0],12月 2月为春季,编码为[0,0,0,1];

~ ~

S32、通过随机森林的使用特征选择原理对解析后的气象数据进行分析处理,计算关于气象数据加上噪声后的特征与原始数据原本特征的误差,计算有噪声的X特征计算出的误差与无噪声的X特征计算出的误差之间的差值,并且计算有噪声的Y特征计算出的误差和无噪声的Y特征计算出的误差之间的差值,比较两个特征的差值,若X特征差值比Y特征差值小,则判断X特征比Y特征的作用小,反之,则判断X特征比Y特征的作用大;仅保留特征作用大的特征。

5.根据权利要求4所述一种基于大数据自适应GA‑PSO改进LSTM预测气温方法,其特征在于,步骤S32中对解析后的气象数据进行分析处理具体包括以下步骤:S321、将气象数据通过随机采样分为袋内数据与袋外数据,对于随机森林中的每一棵树,计算出其对应的袋外数据误差 ,若随机森林中有m棵决策树,则随机森林就有m个 ;

S322、对带外数据 的某个特征增加噪声干扰,再次计算其袋外数据误差;

S323、计算X气象要素的特征重要性值,并且进行由大到小排序,公式表达如下:式中,m为随机森林的决策树个数;

S324、根据气象删除比例将VI序列中VI较小的气象属性去除;

S325、判断是否达到设定的m个气象属性,若达到条件,则输出保留的气象属性,相反,则将保留的气象属性生成新的气象数据集并重复步骤S321 S325。

~

6.根据权利要求1所述一种基于大数据自适应GA‑PSO改进LSTM预测气温方法,其特征在于,步骤S4具体包括以下步骤:S41、构建GA‑PSO‑LSTM预测气温模型;

S42、使用GA‑PSO算法对LSTM的神经元个数、迭代数和dropout进行寻优;其中神经元个数的范围是[0,20],迭代数范围是[0,10],dropout范围是[0,1],对LSTM的神经元个数、迭代数和dropout进行编码操作以适应遗传算法;

S43、计算选择算子,使用轮盘赌的方式,计算出适应度值与总适应度值的比例,进行随机选择,并且设置自适应交叉算子和变异算子 、 ;对于交叉算子和变异算子 、 采用tanh非线性函数来进行变换, =0.4, =0.99, =0.1, =0.001,非线性函数公式表达如下:式中,

为最大迭代次数;

S44、定义粒子群种群大小N,最大迭代次数 ,权重系数 ,个体速度因子和全局速度因子 、 ,0 1的随机数字 、 ;其中,权重系数 、个体速度因子 与迭代次数~成反比,全局速度因子 与迭代次数成正比,其定义式如下:式中, =0.9; =0.4; = =2.5; =

=1.25;

S45、建立GA‑PSO‑LSTM模型算法步骤,具体步骤如下:

1)对粒子进行适应度初始化;

2)更新粒子的速度与位置,具体公式如下:

其中第i个粒子的位置表达方式为 ,第i个粒子的飞行速度为 ,历史个体最优解为,全局最优解为 ;

3)判断速度与位置是否在范围以内,如果在范围内,则计算粒子对应适应度值,如果不在范围内,速度与位置按照以下公式对其进行处理:其中c是常数,

rand是[0,1]之间的随机数;

4)从步骤3中计算的适应度值,按照轮盘赌的方式选取出h个粒子,选出后以概率 进行粒子之间两两交叉,得到新的种群 ,并且计算其对应的适应度值;

5)从步骤4中计算的适应度值,再次按照轮盘赌的方式选取出h个粒子,选出后以概率进行粒子的变异,得到新的种群pop2,并且计算其对应的适应度值;

6)将以上步骤得出的适应度值进行比较,选择最优的适应度,并且更新历史个体最优解和群体最优解;

7)判断迭代次数是否达到 最大迭代次数,如果条件达到则输出最优解,将之赋予LSTM神经网络中,如果没有达到,则返回步骤2,直到达到终止条件,得到GA‑PSO‑LSTM预测模型。