1.一种天气数据获取方法,其特征在于,所述方法包括:从网页中抓取天气数据;
解析所述天气数据中的缺失值;
利用ElasticNet算法进行回归拟合,填补所述缺失值;
利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;
利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。
2.如权利要求1所述的方法,其特征在于,所述从网页中抓取天气数据包括:生成面向天气信息网站的API接口的种子URL以及后续的URL;
向所述天气信息网站的API接口发送HTTP请求,请求访问所述API接口;
对所述天气信息网站提供的数据内容进行分析和识别,以查看所述数据内容;
判断所述数据内容是否为预定信息内容;
若所述数据内容为预定信息内容,则抓取所述数据内容;
将抓取的数据内容作为所述天气数据保存到本地。
3.如权利要求1所述的方法,其特征在于,假设t+1时刻的数据xt+1发生缺失,则所述利用ElasticNet算法进行回归拟合,填补所述缺失值包括:选取t+1时刻之前的24个时刻t-i,i=0,1,2,…,23,选取时间窗大小w,对于所述24个时刻中的每一个时刻t-i,得到一组数据集[xt-i-w,xt-i-w+1,…,xt-i-1],即得到24组数据集:[xt-w,xt-w+1,…,xt-1],[xt-w-1,xt-w,…,xt-2],[xt-w-2,xt-w-1,…,xt-3],…
[xt-w-23,x1,…,xt-24];
以所述24组数据集作为训练数据,对训练数据进行划分,每一组最后一个数组成集合y,每一组最后一个数以外的其他数组成集合x,集合x为:[[xt-w,xt-w+1,…,xt-2],[xt-w-1,xt-w,…,xt-3],[xt-w-2,xt-w-1,…,xt-4],…
[xt-w-23,x1,…,xt-25]],集合y为:
[[xt-1],[xt-2],[xt-3],…,[xt-24]];
将训练数据的x值和y值输入ElasticNet模型中,用每一组的x值去拟合y值,训练ElasticNet模型;
以[xt-w+1,xt-w+1,…,xt]作为输入数据输入到训练好的ElasticNet模型中,得到ElasticNet模型输出的一个值,将该值作为缺失的xt+1。
4.如权利要求1所述的方法,其特征在于,设天气数据为X=[x0,x1,x2,…,xt′],所述利用Moving-zscore算法检测所述天气数据中的异常值包括:(1)选取时间窗大小w′,针对时间点w′至时间点t′中的每个时间点i′,i′=w′,w′+
1,…,t′,计算所述时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,所述时间点i′对应的时间窗的长度为w′;
(2)根据每个时间点i′对应的时间窗内天气数据的均值μi′和标准差σi′,计算所述时间点i′对应的天气数据xi′的mz值mzi′,得到mz列表:[mzw′,mzw′+1,mzw′+2,…,mzt′],其中:
(3)求mz列表的第α分位数作为阈值,得到mzα_percentage,α为预设值;
(4)如果mzi′大于mzα_percentage,则对应第i′时刻的天气数据xi′为异常值。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述天气数据包括湿度、气温、气压、降水量、水汽压、风速、风向、日照时数。
6.如权利要求1-4中任一项所述的方法,其特征在于,所述天气数据包括实时的天气数据、预报的天气数据和历史的天气数据。
7.如权利要求1-4中任一项所述的方法,其特征在于,所述解析所述天气数据中的缺失值包括:将所述天气数据处理成行标签为时间信息、列标签为天气信息的矩阵;
判断所述矩阵中是否存在列信息字段为空的数据;
若所述矩阵中存在列信息字段为空的数据,则该列信息字段为空的数据为所述天气数据中的缺失值。
8.一种天气数据获取装置,其特征在于,所述装置包括:抓取单元,用于从网页中抓取天气数据;
解析单元,用于解析所述天气数据中的缺失值;
第一填补单元,用于利用ElasticNet算法进行回归拟合,填补所述缺失值;
检测单元,用于利用Moving-zscore算法检测所述天气数据中的异常值,剔除所述异常值;
第二填补单元,用于利用ElasticNet算法进行回归拟合,填补剔除的所述异常值。
9.一种计算机装置,其特征在于:所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述天气数据获取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述天气数据获取方法。