利索能及
我要发布
收藏
专利号: 2022103518816
申请人: 南通二进制软件科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于神经网络的大数据压缩方法,其特征在于,包括:

对待压缩的各数据进行算术编码,并根据编码后的数据与编码后其他数据的相似性以及数据中包含的符号种类,分别获得各数据的初始权重;

构建自编码网络,所述自编码网络包括输入层、输出层及至少一个隐藏层,所述输入层及输出层的神经元数量相同且大于所述隐藏层的神经元数;

将编码后的数据同时作为所述自编码网络的输入及输出,将各数据的初始权重作为各数据对应的神经元的初始权重,对所述自编码网络进行训练获得编码网络的权重矩阵;

将自编码网络中神经元对权重矩阵的熵的影响程度作为神经元的重要性值,对自编码网络进行网络剪枝,并在网络剪枝过程中按照神经元的重要性值以及权重矩阵中连接的权重值,将冗余的神经元以及连接删除,直至自编码网络的压缩率及准确率中至少一个在相应的预设阈值范围外;

将网络剪枝后的自编码网络中隐藏层对应的数据作为压缩后的数据。

2.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,对自编码网络进行网络剪枝,并在网络剪枝过程中按照神经元的重要性值以及权重矩阵中连接的权重值,将冗余的神经元以及连接删除,包括:删除权重矩阵中最小权重值在自编码网络中对应的连接,对删除连接后的自编码网络重新进行训练;

当多个神经元的输入连接的集合包含于任一神经元的输入连接的集合中,将该多个神经元中重要性值最小的神经删除,并对删除神经元后的自编码网络重新进行训练;

对训练后的自编码网络中没有输出连接或输出连接的神经元删除,重新对自编码网络进行训练。

3.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,将自编码网络中神经元对权重矩阵的熵的影响程度作为神经元的重要性值,包括:将神经元存在于自编码网络中时自编码网络的权重矩阵的熵作为第一熵值,将权重矩阵中该神经元对应的值置0后获得的权重矩阵的熵作为第二熵值,并将第一熵值及第二熵值的差值的绝对值作为神经元对权重矩阵的熵的影响程度。

4.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,根据编码后的数据与编码后其他数据的相似性以及数据中包含的符号种类,分别获得各数据的初始权重,包括:根据编码后的数据与编码后其他数据之间的相似性的均值,分别获得编码后各数据的相似度;

对所有数据中包含的所有符合的种类进行统计获得所有数据的符合种类,将各符合中包含的符号种类与所有数据的符号种类之比分别作为各数据的符号占比;

将数据的符号占比与数据的相似度之比作为数据的初始权重。

5.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,对待压缩的各数据进行算术编码前,所述方法还包括分别对各数据中异常符号进行处理。

6.根据权利要求4所述的基于神经网络的大数据压缩方法,其特征在于,分别对各数据中异常符号进行处理是通过箱型图实现的。

7.根据权利要求3所述的基于神经网络的大数据压缩方法,其特征在于,编码后的数据与编码后其他数据之间的相似性的获得方法包括:其中,sij为编码后第i个数据与编码后第j个数据的相似性,ai为编码后第i个数据的小数点位数,aj为编码后第j个数据的小数点位数,bi为编码后第i个数据的值,bj编码后第j个数据的值,i,j为不大于n的正整数,且i≠j,n为编码后数据的数量。

8.一种基于神经网络的大数据压缩系统,包括:

算术编码模块,用于对待压缩的各数据进行算术编码;

初始权重获取模块,用于根据编码后的数据与编码后其他数据的相似性以及数据中包含的符号种类,分别获得各数据的初始权重;

自编码网络构建模块,用于构建自编码网络,所述自编码网络包括输入层、输出层及至少一个隐藏层,所述输入层及输出层的神经元数量相同且大于所述隐藏层的神经元数;

权重矩阵获取模块,用于将编码后的数据同时作为所述自编码网络的输入及输出,将各数据的初始权重作为各数据对应的神经元的初始权重,对所述自编码网络进行训练获得编码网络的权重矩阵;

网络剪枝模块,用于将自编码网络中神经元对权重矩阵的熵的影响程度作为神经元的重要性值,对自编码网络进行网络剪枝,并在网络剪枝过程中按照神经元的重要性值以及权重矩阵中连接的权重值,将冗余的神经元以及连接删除,直至自编码网络的压缩率及准确率中至少一个在相应的预设阈值范围外;

压缩数据获取模块,用于将网络剪枝后的自编码网络中隐藏层对应的数据作为压缩后的数据。

9.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载执行时实现如权利要求1至7中任一项所述的基于神经网络的大数据压缩方法的程序。