利索能及
我要发布
收藏
专利号: 2018105157430
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种海量数据结构化方法,其特征在于,包括:

将非结构化数据进行聚类,得到与预设的聚类簇数对应的聚类结果,并设置与每一簇的聚类一一对应的ID编号;

在聚类结果中每一簇的聚类中均获取一非结构化数据,并将所获取的非结构化数据对应转化为正则表达式;

将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化,得到结构化数据。

2.根据权利要求1所述的海量数据结构化方法,其特征在于,所述将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化,得到结构化数据之后,还包括:将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储。

3.根据权利要求1所述的海量数据结构化方法,其特征在于,所述将非结构化数据进行聚类,得到与预设的聚类簇数对应的聚类结果,包括:在多个非结构化数据中选取与预设的聚类簇数相同个数的非结构化数据,将所选取的非结构化数据作为每一簇的初始聚类中心;

根据多个非结构化数据与各初始聚类中心的相异值,将多个非结构化数据进行划分,得到初始聚类结果;

根据初始聚类结果,获取每一簇的调整后聚类中心;

根据调整后聚类中心,将多个非结构化数据进行划分,直至聚类结果保持相同的次数多于预设的次数,得到与预设的聚类簇数对应的聚类结果。

4.根据权利要求1所述的海量数据结构化方法,其特征在于,所述将所获取的非结构化数据对应转化为正则表达式,包括:将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分,得到与所获取的非结构化数据一一对应的划分结果;其中,每一划分结果均包括多个子字符串;

根据每一划分结果所包括子字符串,生成与每一划分结果对应的多个子正则表达式;

将同一划分结果内对应的多个子正则表达式串接,得到该划分结果对应的正则表达式。

5.根据权利要求2所述海量数据结构化方法,其特征在于,所述将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储,包括:根据每一簇的聚类的ID编号,一一对应建立数据表格;

根据每一簇的聚类中所选定结构化数据的字段,一一对应建立数据表格的字段;

将每一簇的聚类中所包括结构化数据根据Fasttext文本分类算法填充至该聚类对应的数据表格的对应字段中。

6.根据权利要求4所述海量数据结构化方法,其特征在于,所述将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化,得到结构化数据,包括:获取每一簇的聚类所对应的正则表达式所包括的多个子正则表达式,将每一簇的聚类中所包括的非结构化数据均与该聚类对应的多个子正则表达式进行转化,得到与每一非结构化数据对应的多个初始转化结果;

将同一非结构化数据对应的多个初始转化结果进行串接,得到该非结构化数据对应的结构化数据。

7.根据权利要求6所述海量数据结构化方法,其特征在于,所述将同一非结构化数据对应的初始转化结果进行串接,得到该非结构化数据对应的结构化数据,包括:将同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接,得到该非结构化数据对应的结构化数据。

8.一种海量数据结构化装置,其特征在于,包括:

聚类单元,用于将非结构化数据进行聚类,得到与预设的聚类簇数对应的聚类结果,并设置与每一簇的聚类一一对应的ID编号;

正则表达式获取单元,用于在聚类结果中每一簇的聚类中均获取一非结构化数据,并将所获取的非结构化数据对应转化为正则表达式;

数据结构化单元,用于将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化,得到结构化数据。

9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的海量数据结构化方法。

10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的海量数据结构化方法。