1.一种基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:包括以下步骤:S1:对影响空气质量的气象因素、社会经济因素和历史空气质量指数AQI进行数据采集和分析,并进行数据预处理,建立时序和具有多源因素的数据集;
S2:构建基于时间衰减函数改进的长短记忆模型AD_LSTM,通过子空间分解和时间衰减函数构建数据缺失感知单元,解决历史空气质量指数AQI时序数据中的数据缺失问题,建立AQI随时间变化的波动趋势;所述步骤S2具体包括以下步骤:S21:根据不同监测区域的历史空气质量指数AQI数据,按照监测时间排序生成对应区T域的时间序列Y ,对AQI随时间的趋势变化规律进行分析,针对AQI时序中的缺失问题,结合LSTM模型的时序预测方法,构造基于时间衰减函数改进的长短记忆模型;
T
Y=[y1,y2,...,yn‑1]
其中yn‑1代表第n‑1时刻各个区域的空气质量指数,yn‑1表示为:其中 代表第m个区域n‑1时刻的空气质量指数;
LSTM模型通过输入门、遗忘门和输出门有选择性的让信息通过,将之前时刻的信息有选择的保存在当前时刻的细胞状态中,具体的表示公式如下所示:Ct=ft*Ct‑1+it*C
ht=ot*tanh(Ct)
其中ft表示遗忘门,负责对之前的信息进行部分舍弃,Ct‑1表示上个时刻的长期记忆,输入门it表示当前时刻的输入数据信息,C表示模型学习到时序数据待存入记忆状态的新信息,经过上述式子计算得到的Ct为当前时刻所保存的长期记忆;输出门ot负责控制当前时刻输出信息,tanh为激活函数,经过输出门和当前时刻记忆状态计算出当前时刻的隐藏状态ht;
S22:AD_LSTM包含LSTM的输入门、遗忘门和输出门,在输入门、遗忘门和输出门之前加入子空间分解来对LSTM模型上一层传递过来的记忆状态进行矩阵分解,得到修正后记忆状态矩阵S
Ct‑1=tanh(WdCt‑1+bd)
其中,Wd,bd是可学习参数,Ct‑1为循环神经网络上一层的记忆状态;
S23:在子空间分解之后加入以中间缺失时刻为权重的时间衰减函数,作用于经过矩阵分解学习后的记忆状态矩阵,具体公式如下:其中τ为可学习参数,Δt为中间缺失数据的时间,exp(.)为时间衰减函数,具体公式如下:x
exp(x)=e
其中e为自然对数,x为函数的输入变量;
最后的记忆状态Ct和隐藏状态ht的计算公式如下:ht=ot*tanh(Ct)
其中ft为遗忘门的输出,it为输入门的输出,Wc、Uc和bc为可学习参数,ht‑1表示t‑1时刻的隐藏状态,ot为输出门的输出;
S24:通过设置输入层可学习参数、隐藏层神经元数量和层数以及输出层的可学习参数T构建AD_LSTM模型,将Y作为AD_LSTM模型的输入,模型输出为输入数据中每个时刻的下一T+1个时刻的预测值,为Y ,计算公式如下:
T+1 T
Y =AD_LSTM((C0,h0),Y)T+1
Y =[y′2,y′3,...,y′n]
其中,y′n是n时刻各个区域的AQI的预测值,(C0,h0)为初始的记忆状态和隐藏状态,代表第m个区域n时刻的AQI预测值;
S3:构建BPNN模型,建立气象因素和社会经济因素与AQI之间的映射关系;
S4:利用协同注意力集成AD_LSTM模型和BPNN模型,并进行集成模型的训练;
S5:利用训练好的集成模型,采用历史空气质量的变化趋势,以及气象因素和社会经济因素,对空气质量进行综合研判;所述S5具体包括以下步骤:S51:根据S1得到n+1时刻m个区域的气象因素和社会经济因素数据xn+1;
S52:将前n个时刻的m个区域的空气质量时序序列[y1,y2,...,yn‑1,yn]作为时序模型AD_LSTM的输入,得到y′n+1,将xn+1作为BPNN模型的输入,得到y″n+1;
S53:对y′n+1和y″n+1进行集成计算,得到n+1时刻的预测值
2.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:所述步骤S1具体包括以下步骤:S11:对气象因素、社会经济因素和历史空气质量指数AQI进行数据采集,对采集到的数据进行数据预处理,其中包括缺失值处理和离群值处理,再采用最大最小归一化处理,所述最大最小归一化公式为:其中Xtarget为最大最小规范后的数据,x式原始数据,xmin和xmax分别为原始数据中的最小值和最大值数据;
S12:然后对历史空气质量指数根据时间和所采集区域生成具有n个时刻m个采集区域T C的对应时序数据Y,气象因素和社会经济因素作为多源因素数据X,其中包括n个时刻m个采集区域的气象因素和社会经济因素数据,影响因素有k个;
S13:在S11和S12步骤数据采集和预处理后,建立时序和多源因素空气质量数据集以进行预测建模和训练。
3.根据权利要求2所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:步骤S11所述对数据进行缺失值处理,具体包括:对具有缺失值的特征进行均值填充;
所述离群值处理具体包括:采用箱型图的方式对数据进行可视化统计,剔除其中明显偏离大部分数据的异常值。
4.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:所述S3具体步骤如下:S31:构建BP网络模型BPNN,将气象因素和社会经济因素中的时间刻度进行统一,然后C进行数据对齐融合,将融合后的数据作为BPNN模型的输入数据X,表示形式如下所示:C
X=[x2,x3,...,xn]
其中xn+1表示第n+1个时刻的气象和社会经济因素数据,xn+1表示为其中 表示在m个区域中,第n个时刻k个因素的监测数值;
label
模型的学习标签Y ,表示形式如下所示:
其中 表示第n个时刻各个区域的空气质量指数集合, 表示为:其中 表示第m个区域第n个时刻的空气质量指数;
S32:所述BP网络全部为全连接网络,输入层设为一层,全部隐藏层均使用全连接结构,设置隐藏层和神经元的范围,激活函数采用Relu,构建出神经网络结构;
C
S33:输入数据X从输入层输入,经过隐藏层和激活函数的变换,最终通过全连接层得到C基于气象因素和社会经济因素的特征表示Y,表示形式如下:C
Y=[y″2,y″3,…,y″n]
其中y″n表示第n个时刻各区域由相关因素得到的空气质量指数,而y″n表示为:其中 表示第n个时刻第m个区域由相关因素得到的空气质量指数预测值。
5.根据权利要求4所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:所述气象因素数据有相应的监测时间,所述社会经济因素数据也具有相关时间点,在气象因素数据的基础上,通过时间维度找到对应时间节点的社会经济因素数据,将两类数据进行融合。
6.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法,其特征在于:所述S4具体包括以下步骤:T T+1
S41:由AQI历史数据构建的多区域时序序列Y经AD_LSTM模型输出为Y ,气象因素和社C C会经济因素数据X经BPNN模型最终输出为Y;
S42:使用协同注意力机制进行模型集成;
将两个模型的输出按照线性拼接得到条件关联矩阵 具体计算公式如下所示:其中 代表矩阵的加法;
在条件性关联矩阵的基础上加上联合关联矩阵模块 具体计算规则如下所示:式中, 表示矩阵的乘法,Im×m表示行和列都为m的单为矩阵,此单位矩阵的形状由实际输入数据中的社区数目决定,In×n表示行和列都为n的单为矩阵,此单位矩阵的形状由实际输入数据的预测时刻的数目决定;
然后使用softmax函数来归一化基于两个子模型之间关联计算得到的条件性关联矩阵和联合关联矩阵,最终得到两个子模型对应的注意力权重如下所示:将得到的权重与各个模型的最终输出进行结合,得到联合后的表达式如公式如下所示:t c
式中,P,P表示各个模型最终乘以各自的注意力权重得到的最终联合表征表示;
最后再计算出各个模型的最终表征 最终基于注意力机制的集成方法计算公式如下所示:式中,Wt,Wc表示集成的各个模型的可学习权重,其中 可表示为:其中 表示由集成模型输出的n时刻的预测值;
S43:设置AD_LSTM模型包含一个隐藏层和全连接层,其中全连接层的隐藏单元数为最终所需输出的维度,全连接层激活函数采用Relu激活函数;BP神经网络层数和隐藏单元都预设为2,4,6,…,max,max为预设的一个最大值;优化器选择adam;
S44:将两个模型输出结果通过协同注意力机制联合一起得到新的输出结果,最终通过全连接层映射输出预测结果;在集成模型的反向传播中,训练采用的损失函数为MSE,总误差表示为:Wt,Wc进行参数更新的公式为:
T+1 T+1 c T+1 c
Wt=Wt‑∝(Y (softmax(Y +Y)+softmax(Y Y)))T+1 T+1 c c T+1
Wc=Wc‑∝(Y (softmax(Y +Y)+softmax(YY )))其中,∝为学习率;
S45:通过参数的不断调整,最终选取效果最优的网络结构。
7.一种处理装置,包括处理器和存储装置,所述处理器,适用于执行各条程序,所述存储装置,适用于存储多条程序,其特征在于:所述程序适用于由处理器加载并执行以实现如权利要求1‑6任一所述的方法。