利索能及
我要发布
收藏
专利号: 2021114068387
申请人: 南京信息职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种大数据的多密集块检测与提取方法,其特征在于,包括如下步骤:获取K维张量数据D、待提取密集块个数m和密集块尺寸范围;

利用基于分段函数的密度跟踪系数对K维张量数据D进行可疑程度度量,并根据可疑程度和密集块尺寸范围生成snapshots列表;

根据snapshots列表从K维张量数据D中提取m个密集块;

利用基于分段函数的密度跟踪系数对K维张量数据D进行可疑程度度量的方法包括:将K维张量数据D作为输入数据;

将输入数据的每个维度下每个属性对应列的所有元素相加,得到每个维度下每个属性对应列的计数;

将输入数据的每个维度下计数最少的一列删除,获得每个维度的剩余块bi,其中,i表示维度, ;

基于分段函数计算每个维度的剩余块bi的密度跟踪系数;

根据密度跟踪系数计算每个维度的剩余块bi对于输入张量数据D的可疑程度DTS值;

密度跟踪系数的表达式如下:

其中, 表示第i个维度的剩余块bi的密度跟踪系数, 表示剩余块bi的总计数, 表示剩余块bi的尺寸的乘积;

可疑程度DTS值的计算公式如下:

其中, 表示第i个维度的剩余块bi的DTS值, 表示Suspiciousness度量指标, 表示原始的K维张量数据D的第i个维度下尺寸的乘积,表示原始的K维张量数据D的总计数;

根据可疑程度和密集块尺寸范围生成snapshots列表的方法包括:比较每个维度的剩余块bi的DTS值,获取各个维度中DTS值最高的剩余块 ;

判断剩余块 是否满足密集块尺寸范围,如果满足,将剩余块 作为数据快照B;

将数据快照B与其DTS值一同存入snapshots列表中;

将剩余块 作为新的输入数据,重新进行可疑程度度量和数据快照提取,直至输入数据为空,获得最终的snapshots列表;

根据snapshots列表从K维张量数据D中提取m个密集块的方法包括:从snapshots列表中找出DTS值最大的数据快照Bmax,作为一个密集块;

从K维张量数据D中删除数据快照Bmax,得到更新后的张量数据D;

根据更新后的张量数据D生成新的snapshots列表,并提取新的密集块,直到提取出m个密集块。