利索能及
我要发布
收藏
专利号: 2017103712603
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于流式数据处理架构的天文元数据归档方法,其特征在于,包括以下步骤:

101、在不同的数据源部署Agent代理,Agent实时监控数据源,一旦有新的原始观测数据产生,Agent的监控模块会立即解析新的原始观测数据并生成相应的元数据;

102、Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台;元数据归档平台的缓存模块会实时接收数据源发送过来的元数据,并将元数据写入分布式缓存队列中;

103、归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中,完成天文元数据归档。

2.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述步骤101在数据源部署Agent,实时监控数据源变化并生成元数据信息,包括:Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,并通过实时解析观测数据文件的方式来生成相应的元数据信息。

3.根据权利要求2所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述Agent通过实时识别数据源文件存储目录MD5码的方式来获取数据源动态信息,具体实现方法为:Agent通过设定一个文件目录MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源向文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化,这时候观察器会依据MD5码的变化获取到新的观测数据文件信息,而后Agent数据解析器会从观测数据中提取元数据信息并按照预定的格式写入文本文件中。

4.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述的102步骤Agent的数据采集模块会实时采集监控模块生成的元数据,并通过网络传输到指定元数据归档平台的消息缓存队列具体包括:数据源通过Flume实时采集Agent生成的元数据信息,同时Flume采用ExecSource的方式实时地将采集到的元数据信息发送到归档平台的消息队列。

5.根据权利要求4所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述归档平台的消息队列采用Kafka分布存储,所以数据源和归档平台之间的元数据传输采用Kafka Producer标准。

6.根据权利要求1所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述步骤103归档平台的流式数据处理组件实时从缓存队列中读取元数据,并处理成时空维度的关联子图写入到图形数据库中具体包括步骤:设计Storm Topology实时从缓存消息队列中读取元数据信息,并对每一条元数据信息进行关联性处理而后生成和Neo4j的Cypher交互语句。

7.根据权利要求6所述的基于流式数据处理架构的天文元数据归档方法,其特征在于,所述对每一条元数据信息进行关联性处理具体包括:Storm Topology流式数据处理拓扑对每条观测数据的元数据信息抽取空间维度上的二维赤经RA和赤纬DEC坐标信息、所属天区信息,以及时间维度上的具体观测时间,依据不同观测数据元数据在时空维度上的关联特性建立数据模型,处理成一张具有时空维度关联特性的子图。

8.一种基于流式数据处理架构的天文元数据归档系统,其特征在于,包括:采集模块、缓存模块、数据处理模块及数据库模块,其中所述采集模块部署在不同的数据源,实时监控数据源是否有新的观测数据产生,一旦检测有新的原始观测数据产生,采集模块会实时解析原始观测数据并抽取元数据并发送到归档平台的缓存模块;所述缓存模块用于缓存采集模块发送来的元数据,并采用分布式消息缓存队列;所述数据处理模块的流式数据处理组件会实时从缓存模块实时读取元数据并进行数据处理,最终生成时空维度相关联的子图,并转发给数据库模块;数据库模块,用于存储数据处理模块发送来的生成时空维度相关联的子图。

9.根据权利要求8所述的基于流式数据处理架构的天文元数据归档系统,其特征在于,所述数据源部署的采集模块为Agent,Agent包括元数据生产模块MetaProudcer和元数据采集模块Flume,Agent的元数据生产模块MetaProudcer负责实时监控数据源,一旦有新的数据产生,则立即解析新的观测数据并生成相应的元数据,而元数据采集模块Flume采用Exec Source的方式实时地将采集到的元数据信息发送到归档平台的消息队列,其中归档平台的元数据缓存采用Kafka分布式消息队列系统。

10.根据权利要求9所述的基于流式数据处理架构的天文元数据归档系统,其特征在于,所述Agent的元数据生产模块MetaProudcer首先开启MD5码观察器,以5s为周期扫描数据源所在文件目录的动态变化,如果数据源往文件目录写入新的观测数据,那么该文件目录的MD5码会发生变化,MetaProudcer的数据解析器同时实时识别数据源存储的文件目录MD5码的方式来获取数据源动态信息,而后通过I/O流的方式读取原始观测数据并过滤掉无用信息,最后按照预定格式将元数据信息写入到指定文本。