1.一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:该方法包括以下步骤:步骤A,获取原始的出租车轨迹数据,确定研究区域范围,对原始的轨迹数据进行预处理并提取载客点,得到载客点数据集合;
步骤B,确定网格的大小k和网格密度阈值λ,网格密度阈值λ表示每个网格单元中落入的载客点的密度,遍历研究区域范围内的载客点数据集合,对研究区域进行网格划分;
步骤C,将载客点数据映射到划分后的网格单元,计算每个网格单元的信息熵和聚集度,并对信息熵由大到小进行排序,根据网格密度阈值λ选择热点网格单元,得到热点网格单元集合,具体为:C‑1,利用映射函数将提取的出租车载客点数据映射到所属网格单元;
C‑2,计算每个网格单元的信息熵H以及网格的聚集度I,并按照网格聚集度的值对信息熵由大到小进行排序,具体如下:设网格映射之后的网格单元Gj存在一组随机载客点变量{x0,x1,…,xm},相应的载客点变量出现的几率为p(xi),信息量为I(xi);
通过计算网格单元Gj信息熵H(x)衡量该网格单元载客点分布的随机性;计算网格单元Gj的信息熵值公式如下:其中,b是对数所用的底;
载客点变量出现概率的大小通过信息熵反映,存在如下两种边界状况:其一,若只有一个变量出现,则该变量出现的概率是一定的,此时计算得到的网格单元信息熵的值最小,即信息熵的值为0,表示该网格单元载客点分布的随机性最小;
其二,若所有的变量等概率出现,此时计算得到的网格单元信息熵的值最大,即信息熵的值为1,表示该网格单元载客点分布的随机性最大;
将计算得到的信息熵进行标准化处理,根据网格单元载客点的信息熵和最大信息熵值构造出租车载客点分布的聚集度I,聚集度用来衡量出租车载客点在网格范围内聚集分布的程度,聚集度计算公式如下:I=1‑Hi/Hmax (2)
其中,Hi为第i个网格信息熵的值,Hmax为最大的信息熵;
C‑3,根据网格密度阈值λ的值选择热点网格单元,将信息熵H大于或者等于网格密度阈值λ的网格作为热点网格单元,信息熵H小于网格密度阈值λ的网格不作为热点网格单元,遍历所有网格单元,最终得到热点网格单元集合;
步骤D,遍历热点网格单元集合,通过聚集度划分热点区域;将划分到热点区域的热点网格单元移出热点网格单元集合,直到热点网格单元集合为空,则输出热点区域集合,出租车载客热点区域挖掘完成。
2.根据权利要求1所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:所述步骤A中对原始的出租车轨迹数据进行预处理并提取载客点,具体如下:A‑1,对原始的出租车轨迹数据进行清洗,清除由于设备故障或者人为操作导致的误差数据;
A‑2,通过地图匹配对误差允许范围之内的轨迹数据进行纠正,使轨迹数据匹配到相应的道路上;
A‑3,对经过步骤A‑1和A‑2预处理之后的出租车轨迹数据提取载客点,即提取出租车在运行的过程中搭载乘客的地点。
3.根据权利要求2所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:所述步骤A‑1清洗以下四类数据:(1)清洗不在研究区域内的数据,即将不属于研究区域范围内的数据删除;
(2)清洗静止数据,即删除由于定位终端设备的故障导致出租车持续上传的无效数据,以及静止状态的出租车持续上传的同一个位置的数据;
(3)清洗始终保持载客或者空载状态的数据,即删除由于司机不打表或者GPS定位设备故障原因导致出租车在一天内或一定时间段的载客状态都是不变的数据;
(4)清洗漂移点数据,即删除由于车辆经过隧道或者行驶速度低于一定值时导致GPS定位不准所记录的漂移超出了误差允许范围的轨迹数据。
4.根据权利要求2所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:步骤A‑2中,采用几何分析法匹配轨迹数据,包括点到点的匹配以及点到线的匹配。
5.根据权利要求2所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:步骤A‑3对预处理之后的出租车轨迹数据提取载客点,方法如下:将出租车的状态分为载客和空载两种状态,载客状态字段的属性值为1表示出租车当前是载客的状态,载客状态字段的属性值为0则表示出租车处于空载状态;
通过判断载客状态字段的属性值变化来判断当前轨迹点是上客点或下客点;
当载客状态字段的属性值由0变为1,表明有乘客上车,将当前轨迹点定义为一个载客点;当载客状态字段的属性值由1变为0,表明有乘客下车,将当前轨迹点定义为一个下客点。
6.根据权利要求1所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:所述步骤D中根据网格单元的聚集度划分热点区域,具体为:D‑1,根据得到的网格单元内出租车载客点分布的聚集度,将聚集度分为T类;
D‑2,任意选择热点网格单元集合中的一个热点网格单元,将该热点网格单元前后左右四个方向上的聚集度类型相同且具有连通性的热点网格单元划分为一个热点区域,并将划分为一个热点区域的热点网格单元移出热点网格单元集合;
D‑3,判断热点网格单元集合中是否还存在热点网格单元,若该集合已空,则输出热点区域集合,出租车载客热点区域挖掘完成;否则,进入步骤D‑4;
D‑4,重复执行步骤D‑2~D‑3,遍历热点网格单元集合,直到集合内所有的热点网格单元划分完毕,最终实现将单一、独立的热点网格单元划分为块状的热点区域。
7.根据权利要求3所述的一种基于网格信息熵聚类算法的出租车载客热点区域挖掘方法,其特征在于:所述步骤A‑1中通过设置速度阈值筛选漂移点,通过轨迹点之间的距离和时间计算求得速度。