1.一种基于经验模态分解和前馈神经网络对时序数据的预测方法,其特征在于由下述步骤组成:(1)对数据集缺失值处理
将时序数据集Ab的缺失值进行统计并查找其位置,缺失值超过3个连续出现时,删除包含该缺失值的行,缺失值的位置连续数为1~3时,用缺失值插补法中的均值插补法进行缺T失值填充,得到时序数据集A{A1,A2,A3},其中A1{x1,x2,...,xm|xi=(xi1,xi2,…,xiq) ,i为有限正整数;q为数据集A的样本个数}为数据集中的类别变量,A2{y1,y2,…,yn|yj=(yj1,Tyj2,…,yjq) ,j为有限正整数}为数据集中除去类别变量和待预测时序数据的其它变量,A3T{z1,z2,…,zp|zl=(zl1,zl2,…,zlq) ,l为有限正整数}为数据集中需要预测的时序数据;
(2)独热编码处理
对数据集中的类别变量A1,进行独热编码方法处理,统计类别变量A1中每一个类别变量xi的类别值个数,用连续自然数从1开始对类别变量xi的类别值进行代替,自然数的个数为类别变量值的个数,再进行独热编码处理,将类别变量A1转换成二进制编码矩阵B{B1,B2,…,Bm|Bi为类别变量xi独热编码得到的数据};
(3)主成分分析方法降维
对数据集中的其它变量A2,除去数据集中的时间戳变量,得到剩余变量A4{s1,s2,…,st|s1,s2,…,st为其它变量A2去掉时间戳变量的剩余变量,t为有限正整数,t≤n},绘制出剩余变量A4的折线图,观察剩余变量A4的特性,将剩余变量A4通过主成分分析方法进行降维处理,得到矩阵P{p1,p2,…,pk|p1,p2,…,pk为剩余变量A4用主成分分析方法降维之后得到的数据,k为有限正整数,k≤t};
(4)经验模态分解
对数据集中的时序数据A3进行经验模态分解,得到包含本征模函数和余量的矩阵I{IMF1,IMF2,…,IMFs,r|IMFe为本征模函数,e=1,2,…,s;s为经验模态分解得到的本征模函数个数,r为余量};
(5)数据标准化处理
每一个本征模函数IMFe和余量r分别与二进制编码矩阵B,矩阵P,拼接成e个新的数据集Ce{IMFe,B,P}和数据集Cr{r,B,P},对所有数据集Ce和数据集Cr,用数据标准化处理方法进行处理,得到对应的数据集De{d1,d2,…,dg|d1,d2,…,dg为数据集Ce经过数据标准化方法处理后得到的数据,g为有限正整数}和数据集Dr{d1,d2,…,dg|d1,d2,…,dg为数据集Cr经过数据标准化方法处理之后得数据},按下式将数据集Ce和数据集Cr中的所有数据投影到[‑1,1]区间:*
其中,x为数据集Ce和数据集Cr每一个变量的数据值标准化后得到的在[‑1,1]区间的值,xmean为数据集Ce和数据集Cr中每一个变量的数据值的平均值,xmax为数据集Ce和数据集Cr中的每一个变量值中的最大值,xmin为数据集Ce和数据集Cr中每一个变量值中的最小值;
(6)前馈神经网络训练
将数据集De和数据集Dr作为前馈神经网络的输入,并且将数据集De和数据集Dr的样本分为训练集和测试集,训练集与测试集的样本比为450:1,将数据集De和数据集Dr对应的本征模函数IMFe和余量r作为输出,本征模函数IMFe和余量r也分为训练集和测试集,训练集与测试集的样本比为450:1,将训练集依次输入前馈神经网络进行预测模型训练,当训练目标最小误差小于0.001时停止训练,得到预测模型;
(7)对测试集测试
测试集依次输入对应预测模型,得到预测结果,所有预测结果相加得到预测值的总和,确定预测结果总和与真值的标准差。
2.根据权利要求1所述的基于经验模态分解和前馈神经网络时序数据的预测方法,其特征在于在主成分分析方法降维步骤(3)中,所述的主成分分析方法为:(1)构建n个样本矩阵
采集原始数据变量的标准化p维随机向量x,构建n个样本矩阵T
x=(x1,x2,K,xp)
T
xi=(xi1,xi2,...,xin)
其中,n、p为有限正整数,n>p,对矩阵x进行如下标准化变化:2
其中Zij为xij标准化后的值,xi为所有元素的平均值,Sj为xi所有元素的均方根,变换后得标准化矩阵Z;
(2)确定相关系数矩阵
按下式确定相关系数矩阵R:
其中,i、j为有限正整数;
(3)确定单位特征向量
按下式得p个特征根:
|R‑λIp|=0
按下式得m的值,确定主成分:
其中t代表信息的利用率,对每个λj,
Rbj=λjbj
得单位特征向量
(4)将标准化后的变量转换为主成分
按下式确定主成分:
(5)对得到的m个主成分进行加权求和,权数为每个主成分的方差贡献率,得到最终评价值。
3.根据权利要求1所述的基于经验模态分解和前馈神经网络时序数据的预测方法,其特征在于在经验模态分解步骤(4)中,所述的经验模态分解方法步骤如下:(1)找出原始时序数据序列x(t)的所有极大值点与极小值点,用三次样条插值函数拟合形成数据的上包络线和下包络线;
(2)确定上包络线、下包络线的均值m1(t)如下:其中up(t)为极大值形成的上包络线,low(t)为下包络线;
(3)确定本征模函数
x(t)‑m1(t)=h1(t)
将h1(t)视为新的信号x(t),重复步骤(1)、(2),直至h1(t)满足下述本征模函数的条件:
1)该函数在整个时间范围内,局部极值点和过零点的数目相等或相差1个;
2)在任意时刻,局部最大值的上包络线和局部最小值的下包络线平均为零;
(4)按下式确定剩余分量r1(t)
r1(t)=x(t)‑h1(t)
其中h1(t)为第一个本征模函数;.
(5)将剩余分量r1(t)作为新的原始数据,重复步骤(1)~(4),直至得到所有的本征模函数和1个趋势项。