利索能及
我要发布
收藏
专利号: 2017108650177
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种实用于海量实时PMU数据的挖掘方法,其特征在于,包括以下步骤:(1)、利用PMU标识数据生成数据挖掘表

(1.1)、将PMU标识数据载入至内存并进行解析,再通过检索PMU标识数据中不同设备的文本信息,将解析后的PMU标识数据以单个设备为一层进行划分,再将划分后的数据层依次压入二维数组中,其中,二维数组每行数据即为单个设备采集的不同数据属性,其行索引作为该数据层的标识;

(1.2)、在二维数组中,将用户需要设定或提取的数据属性在第一行中的位置进行记录,再将所有的记录位置组合成数据挖掘表;

(2)、生成多组群数据

在二维数组中,利用随机抽样的方法抽取N行连续的行数据,并标记为一组群数据;

按照上述方法,随机抽取多次,得到多组群数据;

(3)、校正数据挖掘表

(3.1)、在多组群数据中随机抽取一组群数据,并作为采样群数据;

(3.2)、在数据挖掘表中,找到最后一个数据属性在采样群数据中的位置索引T,其数据属性在数据挖掘表中的位置记录为t;

(3.3)、验证T、t是否符合以下公式:

T=t+N×m

其中,N为采样群数据内包含的行数减一,m为行中数据属性的个数;

若满足,则代表该组采样群数据中所有行数据的排列相同,适用于当前的数据挖掘表;

若不满足,则将该组采样群数据分为两小群,在将两小群按照上述方法分别再次验证,直到找到不满足上述公式的行数据,记录行的标号,解析该行设定数据属性的位置,设定出新的数据挖掘表,再返回步骤(3.1);

(3.4)、通过上述(3.1)~(3.3)的循环迭代后,直到最终设定的数据挖掘表在所有的采样群数据中不符合的行数最少时,迭代结束,并记录不满足最终设定的数据挖掘表所在行的索引及符合它们的挖掘表,再结合这些数据挖掘表,得到后续挖掘算法的挖掘公式;

T'=t'+N'×m

T'为数据属性在整个PMU标识数据中的位置索引,t'为数据属性在数据行对应的挖掘表中的位置记录,N'为挖掘过程中不断递增的行数,m为行中数据属性的个数;

(4)、实时PMU数据的划分

(4.1)、将环形内存缓冲区设置“空”、“未满”和“暂满”三个状态,其中,当环形内存缓冲区中无数据,则将其标记为“空”;当接收的实时PMU数据达到环形内存缓冲区大小上限时,本地文件系统自动创建一个溢出文件,并将环形内存缓冲区中的数据写入到该文件中,同时将环形内存缓冲区设为“暂满”;当环形内存缓冲区中有实时PMU数据但没有达到环形内存缓冲区大小上限时,则将环形内存缓冲区设置为“未满”;

(4.2)、环形内存缓冲区接收实时PMU数据,并将接收的实时PMU数据流以n帧为一组不断载入到一个环形的内存缓冲区中,并在第一组数据末尾处设立起始标识位,并在整个实时挖掘过程中实时更新环形内存缓冲区的状态信息和起始标识位;

(4.3)、利用轮转算法对接收的实时PMU数据进行多进程挖掘;

(4.3.1)、利用轮转算法对多进程任务进行分配;

(4.3.2)、判断环形内存缓冲区的状态信息;

(4.3.3)、如果环形内存缓冲区的状态信息为“未满”,则不断取环形内存缓冲区中的起始标识位之前的行数据,并结合步骤(3.4)中挖掘公式进行挖掘,得到挖掘结果;

(4.3.4)、如果环形内存缓冲区的状态信息为“暂满”,则将溢出文件载入到内存中,并结合步骤(3.4)中挖掘公式进行挖掘,得到挖掘结果;

(4.3.5)、如果环形内存缓冲区的状态信息为“空”,则让任务挂起一段时间等待实时PMU数据载入环形内存中,再执行步骤(4.3.2);

(5)、存储挖掘结果

将步骤(4.3)得到的挖掘结果以数组的形式保存在内存中,当内存占用快满的时候,发出中断任务到任务队列中安排一个进程跳出挖掘循环,将挖掘过后的数据与挖掘表对应的数据变量关联存入磁盘。

2.根据权利要求1所述的一种实用于海量实时PMU数据的挖掘方法,其特征在于,所述步骤(4.3)中,结合步骤(3.4)中挖掘公式进行挖掘的方法为:不断递增挖掘公式中的N',当N'增加到步骤(3.4)中记录的不符合最终设定挖掘表的行数减一时,用符合该行的挖掘表,否则用最终设定的挖掘表,再计算得到T',提取T'对应位置的数据暂存在内存中,直到N'达到步骤(1.1)中的最大行索引时,该组实时PMU数据挖掘完成,再将起始标识位后移到下一组实时PMU数据末尾处,并移除已处理的数据组。

3.根据权利要求1所述的一种实用于海量实时PMU数据的挖掘方法,其特征在于,所述的挖掘结果还可以根据用户需求进行数据文件转换,即:在数据挖掘后,根据当前挖掘公式中的行数信息确定数据对应的系统区域、设备,再结合自定义命名的英文变量,合并后与数据关联输出。