利索能及
我要发布
收藏
专利号: 2020108211294
申请人: 华北科技学院
专利类型:发明专利
专利状态:无效专利
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据归一化方法,其特征在于,包括:

基于MapReduce计算架构,对分布式存储的待处理数据进行处理,得到初始数据;其中,所述待处理数据的格式为分布式文件系统支持的格式,所述初始数据包含多个键不相同的第一键值对;

基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据,其中,所述待处理数据的归一化数据包含多个所述第二键值对。

2.根据权利要求1所述的方法,其特征在于,所述基于MapReduce计算架构,对分布式存储的待处理数据进行处理,得到初始数据,包括:基于MapReduce计算架构,对分布式存储的所述待处理数据进行分割处理,得到第一结果数组;

建立所述第一结果数组的要素标记数组,其中,所述要素标记数组中的要素标记与所述第一结果数组中的元素一一对应;

根据所述第一结果数组和所述要素标记数组,得到第二结果数组,其中,所述第二结果数组中包含的每个元素由所述第一结果数组中的非空值元素、所述非空值元素对应的所述要素标记数组中的所述要素标记拼接得到;

对所述第二结果数组进行遍历,提取所述第二结果数组中的每个元素,将所述第二结果数组中的每个元素与所述第二结果数组组成一个第一初始键值对;

对多个所述第一初始键值对进行转化,得到多个键不相同的第一键值对,其中,多个所述第一键值对构成所述初始数据。

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一结果数组和所述要素标记数组,得到第二结果数组,包括:提取所述第一结果数组中的非空值元素,以及,所述非空值元素对应的所述要素标记数组中的所述要素标记;

对所述非空值元素和所述非空值元素对应的所述要素标记进行拼接,构成所述第二结果数组的多个元素,以得到所述第二结果数组。

4.根据权利要求2所述的方法,其特征在于,所述对多个所述第一初始键值对进行转化,得到多个键不相同的第一键值对,包括:对多个所述第一初始键值对中键相同的所述第一初始键值对的值进行并集处理,并对并集处理的结果进行去重处理,得到多个键不相同的所述第一键值对。

5.根据权利要求1所述的方法,其特征在于,所述基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据,包括:基于MapReduce计算架构,提取所述初始数据中的多个所述第一键值对的值,生成中间结果数组;

对所述中间结果数组进行遍历,提取所述中间结果数组中的每一个元素,将所述中间结果数组中的每个元素与所述中间结果数组组成一个第二初始键值对;

对多个所述第二初始键值对中键相同的所述第二初始键值对的值进行并集处理,并对并集处理的结果进行去重处理,生成多个第二键值对,由多个所述第二键值对构成所述待处理数据的归一化数据。

6.根据权利要求5所述的方法,其特征在于,所述对多个所述第二初始键值对中键相同的所述第二初始键值对的值进行并集处理,并对并集处理的结果进行去重处理,生成多个所述第二键值对,由多个所述第二键值对构成所述待处理数据的归一化数据,包括:根据所述待处理数据中的第i个数据要素,对所述第i个数据要素对应的多个所述第二初始键值对中相同的值进行并集处理,并对并集处理的结果进行去重处理,生成所述第i个数据要素的多个所述第二键值对,由所述第i个数据要素的多个所述第二键值对构成所述待处理数据的所述第i个数据要素的归一化数据,其中,i为正整数;

基于MapReduce计算架构,对所述第i个数据要素的多个所述第二键值对进行转化,生成第i+1个数据要素的多个所述第二键值对,由所述第i+1个数据要素的多个所述第二键值对构成所述待处理数据的所述第i+1个数据要素的归一化数据。

7.根据权利要求1-6任一所述的方法,其特征在于,所述基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据之后,还包括:基于MapReduce计算架构,根据所述归一化数据,得到多个第三初始键值对,其中,每个所述第三初始键值对的键为所述归一化数据中的一个所述第二键值对的值转化得到的元组,每个所述第三初始键值对的值为空值;

对多个所述第三初始键值对进行并集处理,并对并集处理的结果进行去重,生成多个第三键值对,由多个所述第三键值对构成去重的所述归一化数据。

8.一种数据归一化装置,其特征在于,包括:

初始数据单元,配置为基于MapReduce计算架构,对分布式存储的待处理数据进行处理,得到初始数据;其中,所述待处理数据的格式为分布式文件系统支持的格式,所述初始数据包含多个键不相同的第一键值对;

归一化数据单元,配置为基于MapReduce计算架构,将所述初始数据中的多个所述第一键值对分别转化为多个第二键值对,得到所述待处理数据的归一化数据,其中,所述待处理数据的归一化数据包含多个所述第二键值对。

9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序为如权利要求

1-7任一所述的数据归一化方法。

10.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的程序,所述处理器执行所述程序时如权利要求1-7任一所述的数据归一化方法。