利索能及
我要发布
收藏
专利号: 2017112692098
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-03
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据探索模式的转换方法,其特征在于,所述方法包括:

在Notebook包含的所有步骤中确定会产生新的数据集的步骤作为目标步骤,以得到多个目标步骤;

根据所述多个目标步骤在所述Notebook中的执行顺序,将所述多个目标步骤转换成Workflow中的多个节点。

2.根据权利要求1所述的方法,其特征在于,所述多个目标步骤为M个目标步骤,所述根据所述多个目标步骤在所述Notebook中的执行顺序,将所述多个目标步骤转换成Workflow中的多个节点,包括:根据所述M个目标步骤在所述Notebook中的执行顺序,以及所述M个目标步骤中每个步骤的输入数据集和输出数据集,确定所述M个目标步骤中具有实际连接关系的N个目标步骤,以及所述N个目标步骤的实际连接关系,其中,N和M为大于零的整数,N≤M;

根据所述N个目标步骤的实际连接关系,将所述N个目标步骤转换为所述Workflow中的N个节点,所述N个节点在所述Workflow中的连接关系与所述N个目标步骤的实际连接关系对应。

3.根据权利要求2所述的方法,其特征在于,所述根据所述M个目标步骤在所述Notebook中的执行顺序,以及所述M个目标步骤中每个步骤的输入数据集和输出数据集,确定所述M个目标步骤中具有实际连接关系的N个目标步骤,以及所述N个目标步骤的实际连接关系,包括:根据所述M个目标步骤在所述Notebook中的执行顺序,从所述M个目标步骤中的最后一个步骤起,向前依次判断每个步骤需要的输入数据集中是否包含前一步骤的输出数据集;

当第一步骤需要的输入数据集中包含第二步骤的输出数据集时,确定所述第一步骤与所述第二步骤具有实际连接关系,其中所述第一步骤为所述M个目标步骤中的任一步骤,所述第二步骤为所述第一步骤的前一步骤;和/或,当第一步骤需要的输入数据集中不包含第三步骤的输出数据集时,确定所述第一步骤与所述第三步骤没有实际连接关系,其中所述第三步骤为所述第一步骤的前一步骤;

当所述第一步骤与所述第三步骤没有实际连接关系时,将所述第三步骤删除。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

在所述Workflow的最后一个节点的输出数据集中确定目标数据列;

从所述最后一个节点的上一节点起,依次判断所述Workflow中的在所述最后一个节点之前的每个节点的输出数据集中是否包含所述目标数据列;

将输出数据集中包含所述目标数据列的节点确定为强连接节点,将输出数据集中不包含所述目标数据列的节点确定为弱连接节点;

在所述最后一个节点之前的每个节点上标识所述每个节点的强弱属性信息,所述每个节点的强弱属性信息用于指示所述每个节点是所述强连接节点,或所述弱连接节点,其中所述弱连接节点为可删除节点,所述强连接节点为不可删除节点。

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

当第一节点被删除,且所述第一节点之前与所述第一节点连接的节点为一个第二节点时,将所述第一节点之后与所述第一节点连接的下游节点与所述第二节点连接;

当第一节点被删除,且所述第一节点之前与所述第一节点连接的节点为多个节点时,确定所述多个节点中每个节点为所述强连接节点或所述弱连接节点;

当所述多个节点均为所述强连接节点时,将所述多个节点中每个节点均与所述下游节点连接;

当所述多个节点均为所述弱连接节点时,将所述多个节点中每个节点均与所述下游节点连接;

当所述多个节点既存在所述弱连接节点,又存在所述强连接节点时,将所述多个节点中的强连接节点与所述下游节点连接。

6.一种数据探索模式的转换装置,其特征在于,所述装置包括:

步骤筛选模块,用于在Notebook包含的所有步骤中确定会产生新的数据集的步骤作为目标步骤,以得到多个目标步骤;

转换模块,用于根据所述多个目标步骤在所述Notebook中的执行顺序,将所述多个目标步骤转换成Workflow中的多个节点。

7.根据权利要求6所述的装置,其特征在于,所述多个目标步骤为M个目标步骤,所述转换模块包括:筛选子模块,用于根据所述M个目标步骤在所述Notebook中的执行顺序,以及所述M个目标步骤中每个步骤的输入数据集和输出数据集,确定所述M个目标步骤中具有实际连接关系的N个目标步骤,以及所述N个目标步骤的实际连接关系,其中,N和M为大于零的整数,N≤M;

转换子模块,用于根据所述N个目标步骤的实际连接关系,将所述N个目标步骤转换为所述Workflow中的N个节点,所述N个节点在所述Workflow中的连接关系与所述N个目标步骤的实际连接关系对应。

8.根据权利要求6所述的装置,其特征在于,所述装置还包括:

数据列获取模块,用于在所述Workflow的最后一个节点的输出数据集中确定目标数据列;

判断模块,用于从所述最后一个节点的上一节点起,依次判断所述Workflow中的在所述最后一个节点之前的每个节点的输出数据集中是否包含所述目标数据列;

分类模块,用于将输出数据集中包含所述目标数据列的节点确定为强连接节点,将输出数据集中不包含所述目标数据列的节点确定为弱连接节点;

标识模块,用于在所述最后一个节点之前的每个节点上标识所述每个节点的强弱属性信息,所述每个节点的强弱属性信息用于指示所述每个节点是所述强连接节点,或所述弱连接节点,其中所述弱连接节点为可删除节点,所述强连接节点为不可删除节点。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:

权利要求9中所述的计算机可读存储介质;以及

一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。