1.一种基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,该方法具体包括以下步骤:S1:针对常见的轨迹震荡序列类型,完成基于时间窗的震荡轨迹检测,并制定震荡轨迹数据修正策略以修正原序列中的震荡轨迹数据;
S2:引入局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi,计算表示震荡轨迹数据中各轨迹点的时空特性;
S3:根据局部时空密度ρi、高密度空间距离δi和高密度时间间隔τi计算各轨迹点的聚类中心权值γi,参考γi制定筛选策略以自动地选取聚类中心候选点;
S4:根据基站覆盖场景信息制定合并策略,对冗余的聚类中心候选点进行合并,将合并后的聚类中心点记为停驻点;
S5:利用各停驻点对原移动轨迹进行划分,得到完整的出行链信息;
所述步骤S1中,基于时间窗的震荡轨迹检测具体包括以下步骤:
S11:按顺序截取原始数据 中的前Nw个位置组成序列Lw,Nw
表示时间窗内序列点个数;
S12:检测中Lw是否出现循环模式,如果出现则执行步骤S13,否则序列点向前移1位,重新执行步骤S11,截取后续Nw个位置的序列片段;
S13:对检测到的震荡部分序列记为(Lbeg,...,Lend),判断该震荡部分序列的总时间是否小于最大时间间隔Tw_max,如果满足,那么将该震荡部分序列记为Losc,同时序列点向前移1位,返回步骤S11;如果不满足,直接返回步骤S11,直至遍历完 内所有轨迹点;
所述步骤S11中时间窗内序列点个数Nw和步骤S13中最大时间间隔Tw_max的设置方法为:时间窗内序列点个数Nw为常见震荡模式的序列长度和;依据平均震荡长度比和平均震荡时间比分别与间隔时间的关系图,以图像曲率突变处的时间间隔作为最大时间间隔Tw_max;其中震荡长度比是指检测到的震荡序列的长度与Nw的比值,震荡时间比是指震荡序列的总时间和时间窗总时间Tw的比值;
所述步骤S2中,局部时空密度ρi具体表示:在空间维度相距目标点小于截断距离dc,同时在时间维度与目标点间隔时间小于截断时间tc的数据点的个数;数学表示如下:其中,sgn(x)为符号函数,当x>0时,sgn(x)=1;当x=0时,sgn(x)=0;当x<0时,sgn(x)=‑1;χ(Δd)为指示函数,当Δd>0时,χ(Δd)=1,其它情况χ(Δd)=0;
高密度空间距离δi具体表示:目标点到比该点局部时空密度ρi更大的点的空间距离的最小值;数学表示如下:对于局部时空密度最高的点,高密度空间距离δi定义为目标点到其它点的空间距离最大值,即高密度时间间隔τi具体表示:目标点到任何比其局部时空密度ρi更大的点的时间间隔的最小值;数学表示如下:对于局部时空密度最高的点,高密度时间间隔τi,定义为目标点到其它点的时间间隔最大值,即:所述步骤S3中,聚类中心权值γi的具体计算方式为:ρi、δi、τi按照max‑min标准归一化后乘积的大小表示数据点作为聚类中心的可能性的大小;数学表示为:筛选策略具体为:将聚类中心权重大于平均值的数据点作为初始的聚类中心候选点;
所述步骤S4中,合并策略具体为:合并候选点中覆盖场景相同且空间距离小于截断距离dc或时间间隔小于截断时间tc的“相似的”候选数据点;合并原则是保留聚类中心权重较高的点;合并“相似的”候选数据点的具体为:S41:根据覆盖场景对候选点集合中的数据点再次划分;
S42:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相距小于截断距离dc;如果满足执行S44,否则执行S43;
S43:对在同一覆盖场景内的候选点两两循环判断相距是否满足条件:相似点相隔小于截断时间tc;如果满足执行S44,否则执行S42,直至候选点集合内不再有相似点;
S44:多个相似点根据聚类中心权重大小,保留权重最大的数据点,执行S42。
2.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S1中,震荡轨迹数据修正策略具体为:根据实际位置点在震荡序列中出现的频次较多或停留时间较长的特点,选取震荡序列中被访问次数最多或在震荡序列中总停留时间最长的点作为真实位置。
3.根据权利要求1所述的基于信令数据和聚类算法的移动用户出行链提取方法,其特征在于,所述步骤S5中,对原移动轨迹进行划分具体为:根据提取出的轨迹中的停驻点,按照时间顺序排列,将该时间段内的轨迹分割成由多组起讫点构成的出行片段,最终形成用户的出行链。