1.一种基于大数据处理自更新去冗余方法,其特征在于,所述方法包含:
步骤S1:对于公共数据平台中存储的每个数据条目,进行划分以得到一个或者多个数据区域;求取每个数据区域的特征值,使用该特征值构建对应于该每个数据条目的特征矩阵;每种特征值类型对应一个特征矩阵;
步骤S2:计算每种特征值类型对应的特征矩阵Mu的熵量;从所有特征值类型中选择熵量最大的前U个特征值类型对应的特征矩阵,对前U个特征值类型对应的特征矩阵进行稀疏处理以得到U个样本稀疏特征矩阵;将该U个特征值类型和该数据条目关联存储;
所述计算每种特征值类型u对应的特征矩阵 的熵量Su;具体为,采用如下公式(1)~(3)计算熵量Su;其中:u=1~U;(i,j)是特征矩阵中的元素编号; 是位于位置(i,j)的特征值;
所述进行稀疏处理以得到U个样本稀疏特征矩阵MSu;具体为:针对每个特征之类的类型u对应的特征矩阵Mu,在特征矩阵Mu中删除部分元素,使得稀疏窗口在特征矩阵中任意滑动时,稀疏窗口内任一被删除元素均存在且至少存在XS个未被删除的相邻元素,边界元素除外;将被删除的部分元素的元素值设置为0;
步骤S3:接收待存储数据并对其进行划分以得到一个或者多个数据区域;求取每个数据区域的特征值,使用该特征值构建该数据条目的对应于不同特征值类型的特征矩阵;对特征矩阵进行稀疏处理以获取该待存储数据对应的当前稀疏特征矩阵MCu;
步骤S4:对和该待存储数据的数据类型相同的每个数据条目,将和该每个数据条目关联的U个特征值类型及其对应的样本稀疏特征矩阵,和该待存储数据的相应特征值类型的当前稀疏特征矩阵进行比较;当存在一个数据条目,使得其每个特征值类型对应的样本稀疏特征矩阵均和相应特征值类型的当前稀疏特征矩阵相似时,将该存在的一个数据条目作为待确定数据的数据条目;
步骤S5:对该待存储数据的当前稀疏特征矩阵进行特征值补全以得到特征补全矩阵;
比较该特征补全矩阵和该待确定数据的特征矩阵以确定是否进行自更新去冗余;
所述基于该待存储数据的当前稀疏特征矩阵进行特征值补全以得到特征补全矩阵,具体为:使得稀疏窗口在特征矩阵中滑动,将稀疏窗口内的特征矩阵中在稀疏特征矩阵中存在元素值的元素作为补全模型中的输入数据,而将补全模型的输出数据作为补全用特征值补全到稀疏窗口内不存在元素的对应位置中以得到特征补全矩阵;
所述比较该特征补全矩阵和该待确定数据的特征矩阵以确定是否进行自更新去冗余,具体为:比较该特征补全矩阵和该待确定数据的特征矩阵,当每个特征值类型对应的特征补全矩阵均和相应特征值类型的待确定数据的特征矩阵相似时,直接进行自更新去冗余,删除所述待存储数据;否则,返回步骤S3以进行下一待存储数据的处理。
2.根据权利要求1所述的基于大数据处理自更新去冗余方法,其特征在于,所述划分方式和待存储数据的类型相关。
3.根据权利要求2所述的基于大数据处理自更新去冗余方法,其特征在于,待存储数据类型包括结构化、半结构化和/或非结构化大数据。
4.根据权利要求3所述的基于大数据处理自更新去冗余方法,其特征在于,所述待存储数据的类型包括图像、语音、文本和/或视频。
5.根据权利要求4所述的基于大数据处理自更新去冗余方法,其特征在于,每个数据区域的特征值为一个或者多种类型,每种特征值类型对应一个特征矩阵。
6.根据权利要求5所述的基于大数据处理自更新去冗余方法,其特征在于,所述划分为语义无关的数据分割。
7.一种基于大数据处理自更新去冗余的人工智能公共数据平台,其特征在于,所述人工智能公共数据平台用于实现权利要求1‑5中任一项所述的基于大数据处理自更新去冗余方法。
8.一种基于大数据处理自更新去冗余的人工智能公共数据服务器,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1‑5中任一项所述的基于大数据处理自更新去冗余方法。
9.一种基于大数据处理自更新去冗余系统,其特征在于,所述系统用于实现权利要求
1‑5中任一项所述的基于大数据处理自更新去冗余方法。
10.一种计算机可读存储介质,其特征在于,包括程序,当其在计算机上运行时,使得计算机执行权利要求1‑5中任一项所述的基于大数据处理自更新去冗余方法。