利索能及
我要发布
收藏
专利号: 2025109582561
申请人: 南京海帆数据科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于时序数据的数据质量检测方法,其特征在于,包括:

步骤一,设定时间周期和时间间隔,在时间周期内以固定的时间间隔获取数据,得到多个时序数据,基于多个时序数据,获取相邻的每两个时序数据之间的时间差;

步骤二,将时间差与时间间隔进行对比,若时间差等于时间间隔,代表相邻的两个时序数据之间不存在缺失;若时间差大于时间间隔,代表相邻的两个时序数据之间存在缺失;

步骤三,统计相邻两个时序数据之间存在缺失的数量,若缺失数量为零,代表在时间周期内的时序数据完整,不存在遗漏;若缺失数量大于零,代表在时间周期内的时序数据不完整,存在遗漏;

步骤四,在时序数据完整的前提下,获取时序数据数值,并根据历史记录获取时序数据均值,时序数据数值减去时序数据均值后经过正值处理得到时序数据数值偏差;

步骤五,设置时序数据数值偏差阈值,将每个时序数据数值偏差分别与时序数据数值偏差阈值进行对比,若时序数据数值偏差小于等于时序数据数值偏差阈值,代表时序数据数值偏差在合理范围内,则将其代表的时序数据数值标记为正常时序数据数值;若时序数据数值偏差大于时序数据数值偏差阈值,代表时序数据数值偏差超过合理范围,则将其代表的时序数据数值标记为异常时序数据数值;

步骤六,获取异常时序数据数值数量,并设置异常数量阈值,将异常数量与异常数量阈值进行比较,若异常数量小于等于异常数量阈值,代表时间周期内的时序数据数值异常不严重,则对于每个异常时序数据数值,使用其前后两个时序数据数值的均值来对其进行代替;若异常数量大于异常数量阈值,代表时间周期内的时序数据数值异常严重,则重新获取时序数据。

2.根据权利要求1所述的基于时序数据的数据质量检测方法,其特征在于,获取相邻两异常时序数据数值之间的时间间隔,记为异常时间间隔,在异常数量小于等于异常数量阈值时,将异常时间间隔与时间间隔进行对比,根据对比结果得出不同的应对。

3.根据权利要求2所述的基于时序数据的数据质量检测方法,其特征在于,若异常时间间隔等于时间间隔,代表该相邻的两个异常时序数据数值连续,则判定为异常严重,重新获取时序数据;若异常时间间隔大于时间间隔,代表该相邻的两个异常时序数据数值非连续,则维持异常不严重。

4.根据权利要求3所述的基于时序数据的数据质量检测方法,其特征在于,在一个时间周期内的时序数据完整,且时序数据数值正常时,再次获取所有的时序数据数值,并判断在所有的时序数据数值中是否有重复的时序数据数值,根据判断结果得出不同的应对。

5.根据权利要求4所述的基于时序数据的数据质量检测方法,其特征在于,若没有重复的时序数据数值,则维持时序数据完整、时序数据数值正常;若有重复的时序数据数值,获取重复时序数据数值组数,同时,根据历史记录设置重复时序数据数值组数阈值,将重复时序数据数值组数与重复时序数据数值组数阈值进行比较,根据比较结果得出不同的应对。

6.根据权利要求5所述的基于时序数据的数据质量检测方法,其特征在于,若重复时序数据数值组数小于等于重复时序数据数值组数阈值,代表重复组数在正常范围内,不影响时序数据质量;若重复时序数据数值组数大于重复时序数据数值组数阈值,代表重复组数超过正常范围,影响时序数据质量,则进一步分析重复占比率。

7.根据权利要求6所述的基于时序数据的数据质量检测方法,其特征在于,进一步分析重复占比率的具体过程是获取重复时序数据数值数量,利用重复时序数据数值数量除以时序数据数值总数得到重复占比率,设定重复占比率阈值,将重复占比率与重复占比率阈值进行比较,根据比较结果得出不同的应对。

8.根据权利要求7所述的基于时序数据的数据质量检测方法,其特征在于,若重复占比率小于等于重复占比率阈值,代表重复时序数据数值数量占比率低,则采用均值修正方法对重复时序数据数值数量中的其中一个进行修正;若重复占比率大于重复占比率阈值,代表重复时序数据数值数量占比率高,则重新获取时序数据。

9.一种基于时序数据的数据质量检测系统,其用于执行权利要求1‑8中任一所述的方法,其特征在于,包括:

时间差获取模块,其设定时间周期和时间间隔,在时间周期内以固定的时间间隔获取数据,得到多个时序数据,基于多个时序数据,获取相邻的每两个时序数据之间的时间差;

首次对比模块,其将时间差与时间间隔进行对比,若时间差等于时间间隔,代表相邻的两个时序数据之间不存在缺失;若时间差大于时间间隔,代表相邻的两个时序数据之间存在缺失;

统计分析模块,其统计相邻两个时序数据之间存在缺失的数量,若缺失数量为零,代表在时间周期内的时序数据完整,不存在遗漏;若缺失数量大于零,代表在时间周期内的时序数据不完整,存在遗漏;

偏差获取模块,其在时序数据完整的前提下,获取时序数据数值,并根据历史记录获取时序数据均值,时序数据数值减去时序数据均值后经过正值处理得到时序数据数值偏差;

再次对比模块,其设置时序数据数值偏差阈值,将每个时序数据数值偏差分别与时序数据数值偏差阈值进行对比,若时序数据数值偏差小于等于时序数据数值偏差阈值,代表时序数据数值偏差在合理范围内,则将其代表的时序数据数值标记为正常时序数据数值;

若时序数据数值偏差大于时序数据数值偏差阈值,代表时序数据数值偏差超过合理范围,则将其代表的时序数据数值标记为异常时序数据数值;

异常分析模块,其获取异常时序数据数值数量,并设置异常数量阈值,将异常数量与异常数量阈值进行比较,若异常数量小于等于异常数量阈值,代表时间周期内的时序数据数值异常不严重,则对于每个异常时序数据数值,使用其前后两个时序数据数值的均值来对其进行代替;若异常数量大于异常数量阈值,代表时间周期内的时序数据数值异常严重,则重新获取时序数据。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行以实现上述权利要求1‑8中任意一项所述的一种基于时序数据的数据质量检测方法。