1.一种基于时空属性关联规则的预测方法,其特征在于:该方法包括以下步骤:S1:构造预测函数,预测函数包括独立属性预测函数和联合属性预测函数;独立属性预测函数包括位置属性预测函数、类型属性预测函数和时间属性预测函数;
S2:基于构建好的独立属性预测函数和联合属性预测函数,预测访问请求;
所述S1具体为:
预测函数由独立属性预测函数Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}和联合属性预测函数Pre”(p,s,t)组成;
独立属性预测函数的构造:
1)位置属性预测函数的构造;位置属性预测函数Pre(p)的关键方面是空间域中的访问请求的相关性,利用关联规则算法从位置属性序列pn=<p1,p2,p3,...,pn>中挖掘关联项pi→pj,并根据关联规则集构造位置属性预测函数;
(a)区域网格划分
时空数据的位置属性表示智慧城市中数据源的地理位置,以纬度和经度坐标p=(x,y)表示,利用区域网格划分整个区域,既允许规则的早期解决,也允许细胞区域中的关联规则的后期更新,从而为关联规则提供局部和递增的解决方案;
设地理区域是智慧城市中的二维欧几里德矩形空间[0,X][0,Y];把它分成行×列,即row×col的矩形单元格进行编码,其中ith行jth列所覆盖的区域公式为gij=j+col·(i-
1);那么,对于地理区域中的任何位置属性坐标点pk=(xk,yk),如果它满足以下等式,则它属于单元gij:
(b)预测函数的构造
通过区域网格划分,使用关联规则算法从位置属性序列Pn=<p1,p2,p3,...,pn>中挖掘每个单元的关联项,并根据关联规则集构造位置属性预测函数Pre(p);
A.计算单元gij及其邻居单元中包含的位置坐标集B.统计每个坐标点 出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δp进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历位置属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
C.计算每个频繁m项集及其子频繁m-1项集的置信度;在置信度值大于置信度阈值Φp的关联项集上生成关联规则 然后,形成单元格gij的关联规则集D.循环遍历地理区域中的每个单元,以计算位置属性关联规则集并合并它们以形成整个地理区域的关联规则集R(pij,Φij)=Ui,jR(gij,Φij);然后,构造位置属性预测函数:Pre(p)=Match(p,R(pij,Φij))其中Match(.)是规则匹配函数,其输出是与位置属性p匹配成功的关联规则;
2)类型属性预测函数的构造
类型属性预测函数Pre(s)的关键方面是类型域中的访问请求的相关性,使用关联规则算法从类型属性Sn=<s1,s2,s3,...,sn>的序列中挖掘关联项si→sj,并根据关联规则集构造类型属性预测函数,具体步骤如下:(a)统计每个坐标点si,sj∈S出现在位置属性序列中的次数,即支持度,并将其与预定义的支持阈值δs进行比较,以找到频繁1项集;通过在频繁项集之间连接和切割遍历类型属性序列,找到频繁2项集、频繁3项集等,直到频繁m项集,2≤m≤n;
(b)计算每个频繁m项集及其子频繁m-1项集的置信度,在置信度值大于置信度阈值Φs的关联项集上生成关联规则(si,si+1,...,si+m-1)→(si+m,Φi,i+m);然后,形成单元格gij的关联规则集R(gij,Φij)=Um((si,si+1,...,si+m-1)→(si+m,Φi,i+m)),然后构造类型属性预测函数:
Pre(s)=Match(s,R(sij,Φij))
3)时间属性预测函数的构造
时间属性预测函数Pre(t)的关键方面是时域中访问请求的相关性,分析时间序列的属性Tn=<t1,t2,t3,...,tn>,建立一个模型来描述这种潜在的相关性;分段表示时间属性序列,并进行差分处理以实现局部平稳;然后,建立ARIMA模型,构建时间属性预测函数;
(a)时间属性序列的分段表示
使用基于斜率变化的极值点检测和根据序列中局部极值,即每条曲线的起始和结束值的时间属性序列的分段表示;计算由序列值ti,1<i<n,形成的线段与其邻居点ti-1,ti+1的斜率差值||ti-ti-1|-|tt+1-ti||/ΔT,其中ΔT为访问请求的时间间隔;然后,将斜率差异与预定义的阈值进行比较,如果它大于或等于预定义的阈值,设m是一个局部极值,最后,通过使用局部极值,分段表示时间属性序列:T={(t1L,t1R),(t2L,t2R),...,(tkL,tkR)}其中tiL是i,i∈k,段的起始值,tiR是i,i∈k,段的最终值,k是分段的数量;
(b)预测函数的构造
通过上述分段表示和差分处理,实现时间属性序列的局部平稳性,构建ARIMA构造时间属性 预测 函数 Pr e (t) ,通过 引入 k步 滞 后算子 和d阶 差 分标准ARIMA(p,d,q)模型表示如下:其中wn=Δdtn=(1-B)dtn是差分阶数, 是自回归参数,θ1,θ2,...,θq是移动平均参数,δ是指示序列是非零均值的常数,ut是白噪声序列;
设j,1<j<k,的右、左局部极值为分段tjL=tm,tjR=tn;然后,分段表示为(tjL,tjR)=tm,tm+1,...,tn,并且通过d阶差分处理,p=1, 同时,访问请求的时间属性序列不受外部随机干扰的影响,参数为ut=0,q=0;
最后,建立ARIMA(1,d,0)为wn=wn-1;结合滞后算子 和d阶差分,将时间属性预测函数Pre(t)表示为:
(2)联合属性预测函数的构造
由于时空属性互相关的访问请求只占请求总数的很小一部分,难以共同分析属性;因此,只分析时空属性具有特殊互相关性的访问请求,即如果位置属性序列Pl=<pi,pi+1,...,pi+l>和类型属性序列Sl=<si+1,si+2,...,si+l>保持不变并且长度达到最小阈值l=3,表示为:
pi+1=pi+2=...=pi+l,si+1=si+2=...=si+l,l≥3
然后,设位置属性和类型属性在下一个访问请求中保持不变,并且时间属性由Pre(t)预测;最后,联合属性预测函数Pre”(p,s,t)被构造为所述S2具体为:使用预测函数根据当前的用户请求来预测用户的下一个访问请求;
设当前的用户访问请求表示为序列B=<b1,b2,b3,...,bm>,时空属性序列为B=<(p1,s1,t1),(p2,s2,t2),...,(pm,sm,tm)>={Pm,Sm,Tm},每个bi=(pi,si,ti),bi∈B,表示一个用户访问请求;首先对其进行参数化并提取时空属性,形成时空属性序列;然后,根据访问请求预测函数Pre'(p,s,t)和Pre”(p,s,t),将时空属性序列作为输入,并将输出预测为访问请求;
定义一个初始大小为w的滑动自适应观测窗口,将属于观测窗口的时空属性序列{Pw,Sw,Tw}作为预测函数的输入;然后,判断{Pw,Sw,Tw}是否满足公式 如果满足,使用联合预测函数,否则,使用独立属性预测函数;则有:Pw=(pm-w+1,pm-w+2,...,pm)Sw=(sm-w+1,sm-w+2,...,sm)Tw=(tm-w+1,tm-w+2,...,tm)(1)独立属性预测函数
对于不满足公式 的访问请求,根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求
1)位置属性预测;由于整个地理区域采用区域网格划分,所以在预测之前,需要根据公式 判断坐标点是属于同一个小区还是邻居小区;如果这些点属于同一个单元格,触发预测;否则,放弃预测;
w'是最小观测窗口,R'(sij,φij)是存储匹配的相关项目和置信度的临时规则集,PW-1=<pm-w+2,pm-w+3,...,pm>是具有一位持续时间观察窗口的位置属性序列;Match(PW,R(gij,φij))为规则匹配函数,其输出为与pw匹配成功的关联规则项,匹配失败时输出为NULL;如果pw的坐标点属于同一个小区gij或邻居小区,使用规则匹配函数Match(PW,R(gij,φij))扫描关联规则集R(gij,φij)为三个匹配的关联项:(p1,p2,...,pm)→(p'm+1,φ1)(p1,p2,...,pm)→(p”m+1,φ2)(p1,p2,...,pm)→(p”'m+1,φ3)置信度满足φ1+φ2+φ3=1;如果φ1=max(φ1,φ2,φ3),预测的访问请求的位置属性是
2)类型属性预测
类型属性预测类似于位置属性预测;根据预测功能Pre(s)扫描关联规则集R(sij,φij);
在当前观察窗口中查找与类型属性序列匹配的关联规则;然后,选择置信度最高的置信度作为输出结果;设(s1,s2,...,sm)→(s'm+1,φ1)是与SW成功匹配的关联规则,φ1是最大的;
则预测的访问请求的类型属性为
3)时间属性预测
时间属性预测基于预测函数Pre(t);首先,对TW进行d阶差分处理以实现平稳性;然后,使用ARIMA来计算预测访问请求的时间属性,结果由(2)联合属性预测函数
对于不满足公 的访问请求,根据公式Pre'(p,s,t)={Pre(p),Pre(s),Pre(t)}预测时空属性,从而形成预测访问请求: