1.一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:通过二分法修补网页挖掘的缺陷数据,进而利用扰动因子算法实现商品价格的预测,具体包括以下步骤:步骤A、抽取网页中商品的名称、型号、类型与价格数据,建立数据集X={A1,A2,…,Ak},设定需要预测价格的商品为Ai={x1,x2,…,xn},i的取值区间为:[1,k];
步骤B、查找Ai中异常数据,得到异常数据集Bi,分别统计Bi中属于时间上连续的异常数据段,设共有s个日期连续的异常数据段,每段日期上连续异常的数据个数为p,并设r=s;对于每一个p值,步骤G到步骤I只可能被执行一次,且步骤G到步骤I一共被执行s次,之后执行步骤J;
步骤C、当r的值为零时,直接执行步骤J,当r的值不为零时,执行步骤D;
步骤D、设Bi中第r个连续的异常数据段为Br={b1,b2,…bm},r∈[1,s],其在A中的位置为:{xi,xi+1,…xi+p-1};
步骤E、按照p的值分别执行步骤F到步骤H,当p=1时执行步骤F,当p=2时执行步骤G,当p≥3时执行步骤H,步骤F、b1=xi+1;r=r-1,回到步骤C;
步骤G、b1=xi-1,b2=xi+1;r=r-1,回到步骤C;
步骤H、计算pmod2的值,若值为0,则 r=
r-1,回到步骤C;若值不为0,则 r
=r-1,回到步骤C;
步骤I、针对不同的商品Ai经过步骤B到步骤H后可以得到修复后的数据集设
步骤J、求扰动窗口长度为L的 的平均值
2
步骤K、设回归方程为y=aq+bq+c,定义扰动因子 并求S;
步骤L、求
步骤M、令q1=1,q2=2,q3=3,求得a=(y1-2y2+y3)/2,b=(-3y1+4y2-3y3)/2,c=
3y1-3y2+y3;
2
步骤N、求q4=4时y4=aq+bq+c;
步骤P、求扰动因子sn+1=y4+Sn;
步骤Q、求得预测值
步骤R、重复步骤J到步骤Q,可以得到数据集X中所有商品的预测值。
2.根据权利要求1所述的一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:步骤A中所述抽取网页中商品的名称、型号、类型与价格数据是指,利用任意Web数据抽取算法,抽取商品在网页上显示的名称、型号、类型与价格数据;其中x1,x2,…,xn可以是第Ai个商品从一个网页中抽取的第1日至第n日的价格数据,也可以是从多个网页中抽取的第1日至第n日的平均价格数据。
3.根据权利要求1所述的一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:步骤A到步骤H是针对任意一个商品在一个网页中不同日期的价格数据的修补,其中步骤B中异常数据集Bi的数据个数不大于Ai的总数据量的百分之十。
4.根据权利要求1所述的一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:步骤J到步骤Q是针对任意一个商品在一个网页中不同日期的价格数据的预测值,或多个网页中不同日期的平均值价格数据的预测值。
5.根据权利要求1所述的一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:步骤J中扰动窗口长度L的取值一般为三个月,设为13周,91天。
6.根据权利要求1所述的一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:步骤M中q1=1,q2=2,q3=3是指在步骤K回归方程中q的值。