买专利、卖专利、专利购买、专利交易、专利出售、高企申报-数据处理方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

数据处理方法及系统

￥13800

专利号： 2020109548873

申请人：杭州海康威视数字技术股份有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-07-05

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种数据处理方法，其特征在于，所述方法包括：

基于CPU的Apache Spark框架集群为自身的各预处理进程Executor分配待处理的样本数据，其中，针对每一预处理进程Executor，该预处理进程Executor分配的待处理的样本数据存储在该预处理进程Executor对应的缓存分区Partition上，所述基于CPU的Apache Spark框架集群包括多个预处理进程Executor，预处理进程Executor与缓存分区Partition一一对应；

针对每一预处理进程Executor，所述基于CPU的Apache Spark框架集群利用该预处理进程Executor对其对应的缓存分区Partition中的待处理的样本数据进行预处理；

当任一预处理进程Executor完成自身对应的一缓存分区Partition中的待处理的样本数据的预处理时，所述基于CPU的Apache Spark框架集群将针对该一缓存分区Partition预处理得到的数据转化为预设格式得到分区预处理数据，其中，所述分区预处理数据包括多个单元数据，所述预设格式为Apache Arrow格式，所述单元数据为Arrow Record Batch单元数据；并利用Socket客户端向基于GPU的TensorFlow框架集群中的Socket服务端发送所述分区预处理数据的各Arrow Record Batch单元数据；

所述基于GPU的TensorFlow框架集群利用多线程方式将自身的Socket服务端接收的Arrow Record Batch单元数据存储到共享内存中，读取所述共享内存中的单元数据，对预设深度学习模型进行训练。

2.一种数据处理系统，其特征在于，所述系统包括：

基于CPU的Apache Spark框架集群及基于GPU的TensorFlow框架集群，所述基于CPU的Apache Spark框架集群包括多个预处理进程Executor，预处理进程Executor与缓存分区Partition一一对应；

所述基于CPU的Apache Spark框架集群，用于获取待处理的样本数据，为各所述预处理进程Executor分配待处理的样本数据，其中，针对每一预处理进程Executor，为该预处理进程Executor分配的待处理的样本数据存储在该预处理进程Executor对应的缓存分区Partition上；利用各所述预处理进程Executor分别对各自对应的缓存分区Partition中的待处理的样本数据进行预处理；当任一预处理进程Executor完成自身对应的一缓存分区Partition中的待处理的样本数据的预处理时，将针对该一缓存分区Partition预处理得到的数据转化为预设格式得到分区预处理数据，其中，所述分区预处理数据包括多个单元数据，所述预设格式为Apache Arrow格式，所述单元数据为Arrow Record Batch单元数据；并利用Socket客户端向基于GPU的TensorFlow框架集群中的Socket服务端发送所述分区预处理数据的各Arrow Record Batch单元数据；

所述基于GPU的TensorFlow框架集群，用于利用多线程方式将自身的Socket服务端接收的Arrow Record Batch单元数据存储到共享内存中，读取所述共享内存中的单元数据，对预设深度学习模型进行训练。