利索能及
我要发布
收藏
专利号: 2014100379997
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.使用基于MapReduce的LBS兴趣点发现方法,其特征在于,包括步骤:从系统处获取用户群位置记录数据文本文件,由Hadoop自动进行分布式存储,再对用户群位置记录数据文本文件使用MapReduce进行数据变换,得到用户群位置坐标事务集文本文件;获取用户群位置坐标事务集文本数据文件,计算事务集文本数据文件中每个项的频度并按降序排列,得到项集频度降序序列文本文件,对项集频度降序序列文本文件中频率字段值进行分组,得到项集频度分组降序序列文本文件;对用户群位置坐标事务集文本文件按照项集频度分组降序序列进行分组,得到用户群位置坐标分组文件,对用户群位置坐标分组文件中的每个分组建立频繁模式树FP-tree,根据FP-Tree得到用户兴趣坐标分组频繁项集文本文件,以及聚合分组数据后的兴趣坐标频繁项集文本文件;从系统处获取用户群位置记录增量数据文本文件,由Hadoop框架自动进行分布式存储,进行数据变换,获得用户群位置坐标增量事务集文本文件,计算增量事务集中每个项的频率并按降序排列,得到增量项集频率降序序列;将增量事务集的频率降序序列与增量前项集频率降序序列文本文件进行合并,得出全局项集频率降序序列;对上述全局项集频率降序序列进行分组,标记出需要重新挖掘的增量数据分组,对用户群位置坐标增量事务集文本文件进行分组,得到增量用户群坐标事务分组文本文件,对增量用户群坐标事务分组文本文件中的每个分组建立FP-Tree,进行并行挖掘,得到增量用户兴趣坐标分组频繁项集;将增量用户兴趣坐标分组频繁项集与用户兴趣坐标分组频繁项集合并,得到全局频繁项集。

2.根据权利要求1所述的方法,其特征在于,所述用户群位置记录数据文本文件包括定位时间Time、用户手机号码Phone、基站小区位置区码LAC三个字段。

3.根据权利要求1所述的方法,其特征在于,采用均分方式对项集频率降序序列文本文件中的频率字段值进行分组,分组数与系统集群中微处理器核数相同。

4.根据权利要求1所述的方法,其特征在于,获得了全局项集频率降序序列文本数据文件具体包括:将增量项集频率降序序列文本数据文件与发生增量之前的项集频率降序序列文本数据文件合并,得到全局项集频率降序序列文本数据文件。

5.根据权利要求1所述的方法,其特征在于,扫描全局项集频率分组降序序列与项集频率分组降序序列属于同一分组的LAC项值,如果有项值存在频率不同,名称及项降序排序相同,且后续分组中各项频率、项名称及项间排序相同,则将当前分组及其前驱分组存为增量数据分组文本数据文件。

6.根据权利要求1所述的方法,其特征在于,获得全局频繁项集具体包括:

1)读取增量用户兴趣坐标频繁项集所属分组编号;

2)读取增量前用户兴趣坐标分组频繁项集,从中排除与增量用户兴趣坐标频繁项集所属分组编号中具有相同分组编号的频繁项集,筛选出非增量用户兴趣坐标频繁项集;

3)将非增量用户兴趣坐标频繁项集与增量用户兴趣坐标频繁项集合并,得到全局频繁项集。

7.根据权利要求2所述的方法,其特征在于,对用户群位置记录数据文本文件中的字段采取键值对转换操作,获取用户群位置坐标事务集文本数据文件,具体包括:

1)每个映射函数Map读取一行文本,将Time作为第1键key1,Phone、LAC作为第1值value1,构成的键值对形式;

2)通过公式:对上述键值对进行转换,将Phone作为第2键key2,LAC作为第2值value2;

3)通过公式:对键值对进行转换,将Phone作为第2键key2,LAC的集合作为第2值value2;其中List(LAC)是LAC的集合;

4)接收所有相同key2下的value2数组进行聚合;

5)聚合结果保存为格式化的用户群位置坐标事务集文本数据文件。

8.根据权利要求2所述的方法,其特征在于,对事务编码TID、LAC的集合List(LAC)两个字段采取键值对转换操作,获取项集频率降序序列文本数据文件,包括以下步骤:

1)每个映射函数Map读取数据,将TID作为第1键key1,List(LAC)作为第1值value1,构成的键值对形式;

2)通过公式:对上述键值对进行转换,将LAC作为第2键key2,每个LAC的值为1的作为第2值value2;

3)对键值对通过公式进行转换,将LAC作为第2键key2,每个LAC的计数1的集合List(1)作为第2值value2;

4)接收所有相同key2对应的value2数组,计算value2数组中的元素个数,排除元素个数中频率小于等于2的项;

5)将结果保存为格式化的项集频率降序序列文本数据文件。

9.根据权利要求2所述的方法,其特征在于,获取用户群位置坐标事务分组文本文件具体包括:

1)每个Map函数从用户群位置坐标事务集文本数据文件中读取数据,对TID、LAC的集合List(LAC)两个字段采取键值对转换操作,实现每个LAC字段值的过滤;

2)过滤后的文本翻译成键值对形式,即将TID作为第

1键key1,List(LAC)作为第1值value1;

3)通过公式:对上述键值对进行转换,转换后将分组编号group(i)作为第2键key2,List(LAC)作为第2值value2;

4)调用规约函数Reduce接收所有相同key2对应的value2数组;

5)结果保存为用户群位置坐标事务分组文本文件。

10.根据权利要求2所述的方法,其特征在于,获取用户兴趣坐标频繁项集具体包括:

1)一个Map函数处理一个增量用户群位置坐标事务分组文本文件;

2)每个Map函数分别读取用户群位置坐标事务分组的一部分数据,翻译成键值对形式,即将group(i)作为第1键key1,List(LAC)作为第1值value1;

3)以List(LAC)作为一个事务的项集,进行频繁项集挖掘,得到频繁项集List(I);

4)将频繁项集存为键值对形式,即将group(i)作为第2键key2,频繁项的集合List(I)作为第2值value2;

5)调用Reduce函数接收所有key2对应的value2数组,保存为多个格式化的用户兴趣坐标分组频繁项集,再合并得到用户兴趣坐标频繁项集。