1.一种数据处理方法,其特征在于,所述方法包括:
基于CPU的Apache Spark框架集群为自身的各预处理进程Executor分配待处理的样本数据,其中,针对每一预处理进程Executor,该预处理进程Executor分配的待处理的样本数据存储在该预处理进程Executor对应的缓存分区Partition上,所述基于CPU的Apache Spark框架集群包括多个预处理进程Executor,预处理进程Executor与缓存分区Partition一一对应;
针对每一预处理进程Executor,所述基于CPU的Apache Spark框架集群利用该预处理进程Executor对其对应的缓存分区Partition中的待处理的样本数据进行预处理;
当任一预处理进程Executor完成自身对应的一缓存分区Partition中的待处理的样本数据的预处理时,所述基于CPU的Apache Spark框架集群将针对该一缓存分区Partition预处理得到的数据转化为预设格式得到分区预处理数据,其中,所述分区预处理数据包括多个单元数据,所述预设格式为Apache Arrow格式,所述单元数据为Arrow Record Batch单元数据;并利用Socket客户端向基于GPU的TensorFlow框架集群中的Socket服务端发送所述分区预处理数据的各Arrow Record Batch单元数据;
所述基于GPU的TensorFlow框架集群利用多线程方式将自身的Socket服务端接收的Arrow Record Batch单元数据存储到共享内存中,读取所述共享内存中的单元数据,对预设深度学习模型进行训练。
2.一种数据处理系统,其特征在于,所述系统包括:
基于CPU的Apache Spark框架集群及基于GPU的TensorFlow框架集群,所述基于CPU的Apache Spark框架集群包括多个预处理进程Executor,预处理进程Executor与缓存分区Partition一一对应;
所述基于CPU的Apache Spark框架集群,用于获取待处理的样本数据,为各所述预处理进程Executor分配待处理的样本数据,其中,针对每一预处理进程Executor,为该预处理进程Executor分配的待处理的样本数据存储在该预处理进程Executor对应的缓存分区Partition上;利用各所述预处理进程Executor分别对各自对应的缓存分区Partition中的待处理的样本数据进行预处理;当任一预处理进程Executor完成自身对应的一缓存分区Partition中的待处理的样本数据的预处理时,将针对该一缓存分区Partition预处理得到的数据转化为预设格式得到分区预处理数据,其中,所述分区预处理数据包括多个单元数据,所述预设格式为Apache Arrow格式,所述单元数据为Arrow Record Batch单元数据;并利用Socket客户端向基于GPU的TensorFlow框架集群中的Socket服务端发送所述分区预处理数据的各Arrow Record Batch单元数据;
所述基于GPU的TensorFlow框架集群,用于利用多线程方式将自身的Socket服务端接收的Arrow Record Batch单元数据存储到共享内存中,读取所述共享内存中的单元数据,对预设深度学习模型进行训练。