1.一种基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,包括:(1)对原始空气数据集Air进行预处理,得到处理后的空气数据集A;
(2)采用Kohonen网络聚类,将数据集A分为m类,得到第k类数据集Ak,k∈[1,m];
(3)采用ReliefF特征选择算法处理数据集Ak,得到第k类数据集Ak特征重要程度的排名Rk;
所述步骤3的具体包括:
(31)定义第k类数据集Ak的第f个特征,f∈[1,7×t],f的初始值为1;
(32)定义数据集Ak为ReliefF算法的类别Fk1,其余类别为ReliefF算法的类别Fk2,k的初始值为1;
(33)定义Pk为类别Fk1在数据集A中所占的比例;
(34)定义diff(f,x,y)表示样本x与样本y在特征f上的差,如果x(f)=y(f),则diff(f,x,y)=0,否则diff(f,x,y)=1;
(35)从类别Fk1中随机选取一个样本x,选取与该样本距离最近的q个最近邻Hk,Hk={h1,h2,…,hr,…,hq},从类别Fk2中选取与该样本距离最近的q个最近邻Mk,Mk={m1,m2,…,mr,…,mq};
(36)令特征权重W(f)=0;表示为:(37)f=f+1;
(38)如果f>7×t,跳转到步骤(39),否则跳转到步骤(35);
(39)对特征权重W(f)进行排序,得到第k类数据集Ak的特征排名Rk;
(310)k=k+1;
(311)如果k>m,跳转到步骤(312),否则,跳转到步骤(34);
(312)得到所有类别的特征排名R,R={R1,R2,…,Rk,…,Rm};
(4)通过特征重要程度排名Rk,删去第k类数据集Ak排名后c个特征,得到第k类经过特征选择后的数据集Fk;
(5)通过NAR神经网络,用数据集Fk前t天的数据预测t+1天的空气质量指数,得到第k类NAR神经网络训练模型netk;
(6)根据数据集A中随即数据x所在类的特征排名Rz选取特征,用模型netz得到预测结果y;
所述步骤6具体包括:
(61)定义z为x所在的第z类,z∈[1,m];
(62)令k=1,dmin为dxk的最小值;
(63)计算Ak类的中心ak,即Ak中所有数据的平均值;
(64)计算x与ak的距离dxk,dxk=||x‑dxk||;
(65)如果dmin>dxk,跳转到步骤(66),否则跳转到步骤(68);
(66)dmin=dxk;z=k;
(67)k=k+1;
(68)如果k>m,跳转到步骤(69),否则跳转到步骤(63);
(69)令f=7×t;
(610)查询特征f在Rz中的特征排名;
(611)如果f在特征排名Rz后c个,c∈[1,7×t‑1],则跳转到步骤(612),否则跳转到步骤(614);
(612)如果f不是空气质量指数,则跳转到步骤(613),否则跳转到步骤(614);
(613)删除f所在特征;
(614)f=f‑1;
(615)如果f=0,则跳转到步骤(616),否则跳转到步骤(610);
(616)遍历结束,得到经过特征选择后的x’;
(617)将x’作为所在类的NAR神经网络训练模型netz的输入,得到预测结果y。
2.根据权利要求1所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤1的具体方法为:u u u u
(11)数据集Air定义为:CO, PM10,PM2.5, AQI分别为第u天的一氧化碳浓度、二氧化氮浓度、臭氧浓度、PM10浓度、PM2.5浓度、二氧化硫浓度和空气质量指数,共n条数据,其中,TAir=[air1,air2,…,airu,…,airn‑1,airn],u∈[1,n]
(12)对每个特征进行归一化处理;
(13)从第一条数据开始,将t天内的数据及第t+1天的空气质量指数按照时间顺序整理T为一条数据,得到有n‑t条数据、7×t+1个特征的数据集A,A=[a1,…,au,…,an‑t‑1,an‑t] ,auu u u+1 u+t‑1 u+t=[CO,...,AQI,CO ,...,AQI ,AQI ]。
3.根据权利要求2所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤2的具体方法为:(21)定义Kohonen网络的输入为Ii,定义数据集I为数据集A的前7×t个特征,I={I1,I2,…,Ii,…,In‑t},i∈[1,n‑t];
(22)定义Kohonen网络的输出为J,J={J1,J2,…,Jj,…,J7×t},j∈[1,7×t];
(23)定义输入层与输出层之间的权重为Wij,Wij的初始值随机确定;
(24)定义Kohonen网络的学习率为δ(s),领域宽度为 当前迭代次数为s,最大迭代次数为T,s∈[0,T];
(25)令i=1,s=0,j=1;
(26)计算Ii中Iij与J中Jj之间的距离dij,dij=||Iij‑Wij||;
(27)j=j+1;
(28)如果j>7×t,跳转到步骤(29),否则,跳转到步骤(26)(29)对于输入样本Ii,从输出层中找到最佳匹配特性的节点ji,即min dij所在的节点;
(210)计算领域宽度函数值并调整权值:Wij(s+1)=Wij(s)+n(s)δ(s)(Iij‑Wij(s));
(211)s=s+1;
(212)如果s>T,跳转到步骤(213),否则跳转到步骤(26);
(213)计算其余样本Ip在此网络中与权重之间的距离Di,Di={d1,d2,…,dp,…,dn‑t‑1},(214)对于输入样本Ii,从Di中选取距离最小的样本归属为一类;
(215)i=i+1;
(216)如果i>n‑t,跳转到步骤(217),否则跳转到步骤(25);
(217)所有样本聚类完成,分为m类,得到第k类数据集Ak,k∈[1,m]。
4.根据权利要求1所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤4具体包括:(41)令f=7×t;
(42)查询特征f在Rk中的特征排名;
(43)如果f在特征排名Rk后c个,c∈[1,7×t‑1],则跳转到步骤(44),否则跳转到步骤(46);
(44)如果f不是空气质量指数,则跳转到步骤(45),否则跳转到步骤(46);
(45)删除f所在特征;
(46)f=f‑1;
(47)如果f=0,则跳转到步骤(48),否则跳转到步骤(42);
(48)遍历结束,得到第k类经过特征选择后的数据集Fk。
5.根据权利要求1所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤5具体包括:(51)定义第k类经过特征选择后的数据集Fk的部分数据集作为训练集Pk,其余部分作为测试集Tk;
(52)定义训练集Pk除最后一个特征的其余特征,即前t天经过特征选择后的空气数据为训练输入Pk‑in,最后一个特征,即第t+1天的空气质量指数为训练输出Pk‑out;
(53)定义训练集Tk除最后一个特征的其余特征,即前t天经过特征选择后的空气数据为训练输入Tk‑in,最后一个特征,即第t+1天的空气质量指数为训练输出Tk‑out;
(54)定义h为单隐层NAR神经网络隐藏神经元的个数,定义MSE为均方误差;
(55)令MSEmin=1;
(56)Pk‑in作为输入,Pk‑out作为输出,通过具有h个隐藏神经元的单隐层NAR神经网络进行训练,得到第k类具有h个神经元的NAR神经网络训练模型netkh;
(57)Tk‑in作为输入,通过NAR神经网络训练模型netkh,得到输出结果Yk‑out,计算Tk‑out与Yk‑out的MSE;
(58)如果MSEmin>MSE,则跳转到步骤(59),否则跳转到步骤(510);
(59)MSEmin=MSE,netk=netkh,hbest=h;
(510)h=h+1
(511)如果hbest+5>h,则跳转到步骤(56),否则跳转到步骤(514);
(512)输出第k类NAR神经网络训练模型netk。