利索能及
我要发布
收藏
专利号: 2019104472146
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-03
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据库的数据分布分析方法,其特征在于,所述方法包括:从数据库获取目标数据样本集合;

识别所述目标数据样本集合中每一数据样本中的分隔符,并根据所述分隔符将所述数据样本分隔为至少一个数据段;

根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构;

根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息;

在所述根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构之前,所述方法还包括:逐个将每个所述数据段分别缓存于第一有序链表的不同地址中以及所述分隔符缓存于第二有序链表的不同地址中,以记录所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序。

2.根据权利要求1所述的方法,其特征在于,每个所述数据段包括字符串长度信息和/或数据类型,所述根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构包括:根据所述分隔符、所述字符串长度信息和/或数据类型、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构。

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息包括:根据预设的分类规则将所述数据样本分类;

对每类所述数据样本进行数量统计,确定每类所述数据样本的占比;

根据每类所述数据样本的数据结构及占比生成用于表征所述数据库的数据分布的分析结果信息。

4.根据权利要求1或2所述的方法,其特征在于,所述从数据库获取目标数据样本集合,包括:

根据所述数据库中的元数据信息识别数据库中的非字符串;

剔除数据库中的非字符串,得到所述目标样本数据集合。

5.一种数据库的数据分布分析装置,其特征在于,所述装置包括:数据获取模块,被配置成从数据库获取目标数据样本集合;

数据识别模块,被配置成识别所述目标数据样本集合中每一数据样本中的分隔符,并根据所述分隔符将所述数据样本分隔为至少一个数据段;

数据结构确定模块,被配置成根据所述分隔符、所述至少一个数据段、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构;

结果生成模块,被配置成根据所述目标数据样本集合中所有数据样本的数据结构生成用于表征所述数据库的数据分布的分析结果信息;

所述装置还包括:顺序记录模块,被配置成逐个将每个所述数据段分别缓存于第一有序链表的不同地址中以及所述分隔符缓存于第二有序链表的不同地址中,以记录所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序。

6.根据权利要求5所述的装置,其特征在于,每个所述数据段包括字符串长度信息和/或数据类型,所述数据结构确定模块具体被配置成根据所述分隔符、所述字符串长度信息和/或数据类型、所述分隔符与所述至少一个数据段在所述数据样本中的排列顺序,确定所述数据样本的数据结构。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1‑4中任一项所述方法的步骤。

8.一种电子设备,其特征在于,包括:存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1‑4中任一项所述方法的步骤。