利索能及
我要发布
收藏
专利号: 2019110533541
申请人: 武汉工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于集群环境的空气质量监测大数据分区存储方法,其特征在于,包括以下步骤:S1:设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表,所述数据表包括:数据名称、数据类型、是否为主属性、说明;

其中,数据名称包括以下字段:SStation:站点编码、SID:污染物及气象参数编码、SDataTime:记录时间、SValue:监测值、SSamples:样本数、SMark:仪器工作状态、SMID:监测值的单位;

S2:为每个自动化监测站数据表添加CHECK约束;

其中,为每个自动化监测站数据表添加CHECK约束为根据查询分析需求对作为视图分区依据的字段进行数值约束;

S3:根据多维度的统计需求,提取数据表的相应字段分量作为新的分区维度,然后使用UNION ALL操作符,将所有的监测站点数据表构建v_All_Samples分区视图;

其中,提取数据表的相应字段分量包括提取每个记录的SStation分量的第3至6位地区编码Region,提取SDataTime分量的1至4位年份Year,并将Region和Year作为新的分区维度;

S4:配置能用于Hadoop、Spark集群的Eclipse开发环境,生成SparkSesion对话实例sparkHBAir,以jdbc的方式连接SQL Server数据库服务器,将v_All_Samples读取到Spark集群中的hbairData数据集中;

S5:对hbairData数据集进行分区,按"Region","SStation","SID","Year"的次序对hbairData数据集进行多维度、分层次的分区存储。

2.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S1中,SStation字段格式为第1至2位为站点标记,第3至6位为地区编码,第7至9位为序列号编码。

3.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S1中,SDataTime字段格式为ISO标准格式。

4.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法,其特征在于,所述S3中,所述相应字段为主属性字段中的对应字段。