利索能及
我要发布
收藏
专利号: 2024102082283
申请人: 成都农业科技职业学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于流式大数据技术的分布式农业数据存储管理方法,其特征在于,该方法包括以下步骤:获取持续更新的流式数据,将更新前的流式数据记为历史流式数据,将最新一次更新得到的流式数据记为当前流式数据;

将流式数据中连续字符形成序列记为子串,对历史流式数据进行压缩,根据子串的长度以及被压缩的次数获得当前流式数据的初始字典长度,根据当前流式数据中字符之间的距离、字符被压缩的次数、字符所属子串的长度以及子串之间的间隔获得字符的瞬时增量参数,所述子串的长度为子串中字符的数量;

根据历史流式数据被压缩的过程中,字符所属的相同长度的不同子串之间的间隔以及不同字符之间的瞬时增量参数差异获得字符所属子串的字典增量参数;

结合初始字典长度和字典增量参数对当前流式数据进行压缩存储;

其中,所述对历史流式数据进行压缩,根据子串的长度以及被压缩的次数获得当前流式数据的初始字典长度,包括的具体方法为:利用LZ77压缩算法对历史流式数据进行压缩处理,在压缩处理过程中将所有相同长度的子串被压缩的次数记为历史流式数据中对应长度下的子串的第一参数;

当前流式数据的初始字典长度的具体计算方法为:

其中,H表示当前流式数据的初始字典长度;wl表示历史流式数据中长度为l的子串的压缩权值;L表示历史流式数据中子串的最大长度;l表示历史流式数据中子串的长度;Nl表示历史流式数据中长度为l的子串的第一参数;N′表示历史流式数据中所有字符的数量; 表示向上取整;norm()表示线性归一化函数;

其中,所述根据当前流式数据中字符之间的距离、字符被压缩的次数、字符所属子串的长度以及子串之间的间隔获得字符的瞬时增量参数,包括的获取方法为:根据字符所属子串的长度以及子串之间的间隔获得字符的时序连续率;

根据字符之间的距离、字符被压缩的次数以及字符所属子串的长度获得当前流式数据中字符的时序增益参数;

根据字符的时序连续率和时序增益参数获得字符的瞬时增量参数;

其中,所述根据字符所属子串的长度以及子串之间的间隔获得字符的时序连续率,包括的具体方法为:获取历史流式数据在压缩过程中各字符所属子串的长度,将同一种字符所属的所有相同长度的子串记为所述同一种字符的目标子串,对于历史流式数据中任意字符的所有目标子串中相邻的两个目标子串,将第一个目标子串的最后一个字符与第二个目标子串的第一个字符之间所包括的字符数量,记为目标子串的间隔长度,将任意字符的所有目标子串的间隔长度的均值记为字符所属子串的平均间隔长度参数;

当前流式数据中任意字符的时序连续率的具体计算方法为:

其中,SL表示当前流式数据中字符的时序连续率;l′表示当前流式数据中字符所属子串的长度;Sl表示当前流式数据中所属子串的长度为l的字符的平均间隔长度参数;L′表示当前流式数据中字符所属子串的最大长度;norm()表示线性归一化函数;

其中,所述根据字符之间的距离、字符被压缩的次数以及字符所属子串的长度获得当前流式数据中字符的时序增益参数,包括的具体方法为:获取历史流式数据在压缩过程中,任意字符所属的所有子串被压缩的次数,记为字符的压缩频次,将当前流式数据中任意两个字符之间所包括字符的数量记为所述两个字符之间的字符距离参数;

获取当前流式数据中字符的时序增益参数,具体计算方法为:

其中,SZi表示当前流式数据中第i个字符的时序增益参数;Pi表示当前流式数据中第i个字符的压缩频次;Sim表示当前流式数据中第i个字符被第m次压缩时与当前流式数据中最后一个字符的字符距离参数;PCim表示当前流式数据中第i个字符被第m次压缩时的压缩贡献参数;Mi表示当前流式数据中第i个字符被压缩的次数;e表示自然常数;Nilm表示第i个字符所属长度为l的子串被第m次压缩之前的压缩过程中出现的总次数;li表示当前流式数据中第i个字符所属子串的长度;N′表示历史流式数据中所有字符的数量;

其中,所述根据字符的时序连续率和时序增益参数获得字符的瞬时增量参数,包括的具体方法为:将 记为当前流式数据中第i个字符的瞬时增量参数,其中e表示自然常数;SLi表示当前流式数据中第i个字符的时序连续率;SZi表示当前流式数据中第i个字符的时序增益参数;

其中,所述根据历史流式数据被压缩的过程中,字符所属的相同长度的不同子串之间的间隔以及不同字符之间的瞬时增量参数差异获得字符所属子串的字典增量参数,包括的具体方法为:根据历史流式数据被压缩的过程中,字符所属的相同长度的不同子串之间的间隔获得第一子串和第一子串的压缩间隔长度;

当前流式数据中字符所属子串的字典增量参数的具体计算方法为:

其中,ΔHil表示当前流式数据中第i个字符所属长度为l的子串的字典增量参数;Sijl′表示当前流式数据中第i个数据所属长度为l′的第j个第一子串的压缩间隔长度;Jil′表示当前流式数据中第i个数据所属长度为l′的第一子串的数量;ZJ′i表示当前流式数据中第i个字符的压缩增量参数;ki表示当前流式数据中第i个字符的字典增量系数;

其中,所述当前流式数据中第i个字符的压缩增量参数的具体计算方法为:

其中i′≠i,I表示当前流式数据中所有字符的数量;ZJi表示当前流式数据中第i个字符的瞬时增量参数;ZJi′表示当前流式数据中第i′个字符的瞬时增量参数;ZJ′i表示当前流式数据中第i个字符的压缩增量参数。

2.根据权利要求1所述基于流式大数据技术的分布式农业数据存储管理方法,其特征在于,所述根据历史流式数据被压缩的过程中,字符所属的相同长度的不同子串之间的间隔获得第一子串和第一子串的压缩间隔长度,包括的具体方法为:对历史流式数据进行压缩的过程中,将任意长度的所有子串中已经压缩的子串记为第一子串,将未压缩且即将压缩的子串记为第二子串,将每一个第一子串与第二子串的间隔长度记为第一子串的压缩间隔长度。

3.根据权利要求1所述基于流式大数据技术的分布式农业数据存储管理方法,其特征在于,所述结合初始字典长度和字典增量参数对当前流式数据进行压缩存储,包括的具体方法为:历史流式数据更新得到当前流式数据后,将更新的字符滑入LZ77压缩算法的压缩字典中,若更新字符在当前流式数据中所述子串对应的字典增量参数不为零,则将当前流式数据的初始字典长度和更新的字符在当前流式数据中所属子串的字典增量参数的和值,记为更新的字符在当前流式数据中所属子串的压缩字典长度;

结合压缩字典长度,并利用LZ77压缩算法对更新的字符所属子串进行压缩,获得当前流式数据的压缩数据,将所有流式数据对应当前流式数据的压缩数据打包为一个压缩包进行存储。