利索能及
我要发布
收藏
专利号: 2019114143338
申请人: 广东科学技术职业学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-10
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种大数据存储方法,其特征在于,包括以下步骤:S10、解析数据源的属性,根据基础属性划分对应的数据特征,并构建特征库;

S20、遍历所述基础属性,将对应的所述数据特征进行聚集虚拟,得到对应的虚拟类;

S30、将所述虚拟类生成一定数量的虚拟对象;

S40、将所述数据源与所述虚拟对象进行逐一匹配,将关联度最大的数据与对应虚拟对象进行关联绑定,直到所有数据源的数据遍历完毕;

其中,所述S20包括:

S21、遍历所述数据源的所述数据特征,根据所述数据特征对应属性相同的数据进行两两聚集虚拟,直到所有数据遍历完成,得到多个虚拟类;

所述S20还包括:

S22、遍历所述虚拟类,与所述数据源的属性进行逐一匹配,判断所述虚拟类与所述属性是否匹配;

S23、将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集,得到聚集虚拟类;

S24、将所述聚集虚拟类对应的所述数据特征虚拟为父类,得到虚拟父类。

2.根据权利要求1所述的大数据存储方法,其特征在于,所述基础属性包括文件属性、基本属性、环境属性、行为属性以及内容属性。

3.根据权利要求1所述的大数据存储方法,其特征在于,所述S10包括:S11、设置各个所述属性的优先级,并遍历所述数据源,进行特征抽取;

S12、基于所述优先级对所述数据源的各个数据特征进行匹配值计算,将所述匹配值最高值作为参照值;

S13、将所述参照值对应的所述属性划分为对应数据的基础属性。

4.根据权利要求3所述的大数据存储方法,其特征在于,所述S12还包括:当所述数据特征对应的属性为非基础属性时,统计该数据特征出现次数;

当所述出现次数大于预设阈值时,设置所述数据特征对应的属性为基础属性。

5.根据权利要求1所述的大数据存储方法,其特征在于,所述虚拟对象与所述虚拟类一一对应。

6.根据权利要求1所述的大数据存储方法,其特征在于,所述S40还包括:将所述数据源按一定的规则进行切分成多个数据元;

将所述数据元与所述虚拟对象逐一进行关联度计算;

将关联度最大的数据与对应虚拟对象进行关联绑定,直到所有数据源的数据遍历完毕。

7.一种大数据存储系统,其特征在于,包括:特征库,用于解析数据源的属性,根据基础属性划分对应的数据特征;

聚集模块,用于遍历所述基础属性,将对应的所述数据特征进行聚集虚拟,得到对应的虚拟类;

虚拟模块,用于将所述虚拟类生成一定数量的虚拟对象;

关联模块,用于将所述数据源与所述虚拟对象进行逐一匹配,将关联度最大的数据与对应虚拟对象进行关联绑定,直到所有数据源的数据遍历完毕;

其中,所述聚集模块还用于遍历所述数据源的所述数据特征,根据所述数据特征对应属性相同的数据进行两两聚集虚拟,直到所有数据遍历完成,得到多个虚拟类;

所述聚集模块还用于遍历所述虚拟类,与所述数据源的属性进行逐一匹配,判断所述虚拟类与所述属性是否匹配;将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集,得到聚集虚拟类;将所述聚集虚拟类对应的所述数据特征虚拟为父类,得到虚拟父类。

8.根据权利要求7所述的大数据存储系统,其特征在于,所述聚集模块还包括:匹配单元,用于遍历所述虚拟类,与所述数据源的属性进行逐一匹配,判断所述虚拟类与所述属性是否匹配;

聚集虚拟单元,用于将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集,得到聚集虚拟类;

父类虚拟单元,用于将所述聚集虚拟类对应的所述数据特征虚拟为父类,得到虚拟父类。