1.一种基于线性插补与自适应滑动窗口的商品价格预测方法,其特征在于:通过线性插补网页挖掘的缺陷数据,进而利用自适应滑动窗口算法实现商品价格的预测,具体包括以下步骤:步骤A、抽取网页中商品的名称、型号、类型与价格数据,建立数据集X={A1,A2,…,Ak},设定需要预测价格的商品为Af={x1,x2,…xn},x1,x2,…,xn指第Af个商品从抽取的第1日至第n日的价格数据;查找Af中异常数据,得到异常数据集Bj={b1,b2,…bm},分别统计Bj中属于时间上连续的异常数据段,设共有s个日期连续的异常数据段,每段日期上连续异常的数据个数为p;
步骤B、当s的值为零时,直接执行步骤F,当s的值不为零时重复执行步骤C到步骤E;
步骤C、设第s个日期连续的异常数据段中的数据在Af中的位置为:{xi,xi+1,…,xi+p-1};
步骤D、求 和
步骤E、s=s-1,返回步骤B;
步骤F、针对不同的商品Af经过步骤B到步骤E后可以得到插补后的数据集 设
步骤G、设定商品价格观测窗口宽度为L,定义fL,1为观测窗口后一天的预测值;定义用于预测的滑动窗口宽度为NL,r;
步骤H、选取预先设定的不同的r值,求
步骤I、计算不同r值的均方误差, 找到MSEt,r最小时
的r值和
步骤J、第n+1天的预测值
步骤K、重复步骤B到步骤J,可以得到数据集X中所有商品的预测值。
2.根据权利要求1所述的一种基于线性插补与自适应滑动窗口的商品价格预测方法,其特征在于:步骤A中所述抽取网页中商品的名称、型号、类型与价格数据是指,利用任意Web数据抽取算法,抽取商品在网页上显示的名称、型号、类型与价格数据;其中x1,x2,…,xn可以是第Af个商品从一个网页中抽取的第1日至第n日的价格数据,也可以是从多个网页中抽取的第1日至第n日的平均价格数据;步骤A中异常数据集Bj的数据个数不大于Af的总数据量的百分之十。
3.根据权利要求1所述的一种基于线性插补与自适应滑动窗口的商品价格预测方法,其特征在于:步骤B到步骤E是针对任意一个商品在一个网页中不同日期的价格数据的插补。
4.根据权利要求1所述的一种基于线性插补与自适应滑动窗口的商品价格预测方法,其特征在于:步骤G到步骤J是针对任意一个商品在一个网页中不同日期的价格数据的预测值,或多个网页中不同日期的平均值价格数据的预测值。
5.根据权利要求1所述的一种基于线性插补与自适应滑动窗口的商品价格预测方法,其特征在于:步骤G中观测窗口宽度L的取值一般为三个月,设为13周,91天。
6.根据权利要求1所述的一种基于线性插补与自适应滑动窗口的商品价格预测方法,其特征在于:步骤H中预先设定的不同的r值一般为3天,5天,7天,10天,15天和30天。