1.一种基于多源数据驱动的城市人群出行识别方法,其特征在于,所述方法包括以下步骤:S1、爬取城市POI数据并对所爬取的城市POI数据中的公交站点POI数据进行聚类,然后确定公交站点POI数据聚类的簇中心点,并根据所确定的公交站点POI数据聚类的簇中心点构建对应的城市Voronoi图;
S2、基于所述步骤S1中城市POI数据、公交站点POI数据聚类的簇中心点和城市Voronoi图对该城市的功能区域进行划分;
S3、获取所述城市不同时间段的人群出行数据并分别进行聚类,同时确定所述城市不同时间段的人群出行聚类的簇中心点;
S4、将步骤S3中确定的城市不同时间段的人群出行聚类的簇中心点分别展示到所述城市Voronoi图上,从而根据该城市的功能区域划分识别出所述城市不同时间段的人群出行分布规律。
2.如权利要求1所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述城市POI数据按照该城市的功能区域进行分类,其包括餐饮服务、旅游景点、公共服务、公司企业、购物服务、科学,教育和文化服务、商务住宿、生活服务、体育娱乐,以及政府机构和社会团体十类功能性类别。
3.如权利要求1或2所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,每一条所述城市POI数据中均包括经度、纬度、POI名称、地址、省份名称、城市名称、经营区域、big_type、meddle_type、small_type和所属辖区十一个属性。
4.如权利要求3所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述步骤S1的具体实现方式包括:S11、利用现有APP软件爬取城市的全部POI数据并对所爬取的全部POI数据进行清洗,然后选取该城市的公交站台POI数据并计算公交站台之间的实际距离,其计算公式表示为: (1)
式(1)中, 表示半正矢函数,表示两个公交站台之间的距离,表示地球赤道半径,和 分别表示两个公交站台的纬度, 和 分别表示两个公交站台的经度;
S12、设定一个DBSCAN算法的半径参数和邻域密度阈值并进行聚类,然后将DBSCAN算法聚类后的簇的总数作为K-means算法中的K进行聚类,并确定K-means算法中公交站台POI数据聚类的簇中心点;
S13、根据K-means算法中公交站台POI数据聚类的簇中心点和城市POI数据构建对应的城市Voronoi图。
5.如权利要求4所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述步骤S12中的半径参数为500米,邻域密度阈值为5。
6.如权利要求3所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述步骤S2的具体实现方式为:首先以公交站台的每个簇中心点为中心并设定一个半径值,然后收集每个簇中心点周围的城市POI数据并构建文档,分析各个簇中心点周围出现的POI数量和种类,最后利用权重概率算法并基于城市Voronoi图确定该城市的功能区域,其中权重概率算法用公式表示为: (2)
(3)
式(2)和式(3)中,表示城市POI数据中属性的序号, 表示城市POI数据中第 个属性的概率;表示城市POI数据中第 个属性在该簇中心点周围出现的数量; 表示在该簇中心点周围所有的城市POI数据出现的数量; 表示城市POI数据中第 个属性的权重, 表示该城市中所有POI数据的数量, 表示城市POI数据中第 个属性的全部数量。
7.如权利要求1所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述步骤S3中的人群出行数据包括出租车数据、公交卡数据和公交车数据中的至少一种。
8.如权利要求7所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述步骤S3中不同时间段的人群出行数据需要删除重复和异常的数据之后再分别进行聚类。
9.如权利要求8所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,所述步骤S3中的不同时间段为每天均等的十二个时间段。
10.如权利要求9所述的基于多源数据驱动的城市人群出行识别方法,其特征在于,每一条所述出租车数据和公交车数据的信息包含车辆ID、设备号、方向角、经度、维度和处理时间,每一条公交卡数据的信息包含公交卡编号、刷卡日期和刷卡机ID。