1.一种用于大数据的智能存储系统,其特征在于,包括:
数据采集模块,用于获取待存储数据;
数据编码模块,用于对所述待存储数据进行编码以得到待存储数据语义理解特征;以及数据放行控制模块,用于基于所述待存储数据语义理解特征,确定对所述待存储数据是否放行;
其中,所述数据编码模块,包括:
字符关联语义编码单元,用于对所述待存储数据进行基于字符关联语义理解以得到待存储数据字符粒度语义理解特征向量;
词关联语义编码单元,用于对所述待存储数据进行基于词关联语义理解以得到待存储数据词粒度语义理解特征向量;以及多尺度语义特征融合单元,用于融合所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量以得到多粒度待存储数据语义理解特征向量作为所述待存储数据语义理解特征;
其中,所述数据放行控制模块,包括:
特征优化因子计算单元,用于对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到校正特征向量;
特征加权优化单元,用于计算所述校正特征向量与所述多粒度待存储数据语义理解特征向量的按位置点乘以得到优化多粒度待存储数据语义理解特征向量;以及数据放行检测单元,用于将所述优化多粒度待存储数据语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示对所述待存储数据是否放行;
其中,所述特征优化因子计算单元,用于:以如下融合优化公式对所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量进行前向传播信息保留融合以得到所述校正特征向量;
其中,所述融合优化公式为:
其中, 是所述待存储数据字符粒度语义理解
特征向量, 是所述待存储数据词粒度语义理解特征向量, 和 分别表示将特征向量左移 位和右移 位, 为取整函数,是所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量的所有特征值的均值, 表示特征向量的一范数, 是所述待存储数据字符粒度语义理解特征向量和所述待存储数据词粒度语义理解特征向量之间的距离,且 为以2为底的对数函数值, 和 分别表示按位置减法和加法, 和 为加权超参数, 是所述校正特征向量;
在上述融合优化公式中,针对所述待存储数据字符粒度语义理解特征向量 和所述待存储数据词粒度语义理解特征向量 在网络模型中的前向传播过程中,由于融合操作产生的在向量尺度上的浮点分布误差和特征信息损失,通过从均一化信息角度来引入向量的逐位位移操作,来平衡和标准化前向传播过程中的量化误差和信息损失,并通过在特征融合之前重塑特征参数的分布来引入分布多样性,由此以扩大信息熵的方式进行信息保留;
这样,将得到的所述校正特征向量 与所述多粒度待存储数据语义理解特征向量进行点乘,就可以减少所述多粒度待存储数据语义理解特征向量对于单独语义粒度下的关联语义特征的表达的信息损失,从而提升其通过分类器得到的分类结果的准确性。
2.根据权利要求1所述的用于大数据的智能存储系统,其特征在于,所述字符关联语义编码单元,包括:字符划分子单元,用于对所述待存储数据进行以字符为单位的数据划分以得到待存储数据的字符序列;以及字符上下文语义理解子单元,用于将所述待存储数据的字符序列通过包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据字符粒度语义理解特征向量。
3.根据权利要求2所述的用于大数据的智能存储系统,其特征在于,所述字符上下文语义理解子单元,包括:输入向量生成二级子单元,用于将所述待存储数据的字符序列通过含word2vec模型和BiLSTM模型的语义编码器的word2vec模型以得到输入字符向量的序列;以及字符上下文语义理解二级子单元,用于使用所述包含word2vec模型和BiLSTM模型的语义编码器的BiLSTM模型对所述输入字符向量的序列进行上下文的语义关联编码以得到所述待存储数据字符粒度语义理解特征向量。
4.根据权利要求3所述的用于大数据的智能存储系统,其特征在于,所述词关联语义编码单元,包括:词划分子单元,用于对所述待存储数据进行以词为单位的数据划分以得到待存储数据的词序列;以及词上下文语义理解子单元,用于将所述待存储数据的词序列通过所述包含word2vec模型和BiLSTM模型的语义编码器以得到所述待存储数据词粒度语义理解特征向量。
5.根据权利要求4所述的用于大数据的智能存储系统,其特征在于,所述数据放行检测单元,包括:全连接编码子单元,用于使用所述分类器的多个全连接层对分类特征向量进行全连接编码以得到编码分类特征向量;以及分类结果生成子单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。