1.一种基于Possion分布的多密集块检测与提取方法,其特征在于,包括如下步骤:获取多维张量数据、待提取密集块个数m和密集块尺寸范围;
利用密集块可疑程度度量方法对多维张量数据进行可疑程度度量,得到包含多个可疑的数据快照的snapshots列表;
根据snapshots列表从多维张量数据中提取单个密集块;
从多维张量数据中剔除已经提取的单个密集块,得到更新后的多维张量数据;
根据更新后的多维张量数据生成新的snapshots列表,并提取新的密集块,直到提取出m个密集块;
其中,所述密集块可疑程度度量方法通过包含计数和密度双因素的Possion分布推导得到;
包含计数和密度双因素的Possion分布的表达式如下:其中, 表示在Possion分布下原始多维张量数据中出现密集块的概率,表示原始多维张量数据的密度,表示密集块的密度,表示密集块的总计数;
可疑程度DGCS值的表达式如下:
其中, 表示第i个维度的剩余块bi的可疑程度DGCS值, 表示剩余块bi的尺寸的乘积, 表示剩余块bi的总计数,表示多维张量数据D的尺寸的乘积,表示多维张量数据D的总计数, 表示多维张量数据D中出现剩余块bi的概率, 表示剩余块bi的密度,表示多维张量数据D的密度;
根据密度的计算公式,可疑程度DGCS值的表达式满足如下方程:。
2.根据权利要求1所述的一种基于Possion分布的多密集块检测与提取方法,其特征在于,设多维张量数据D的维数为K,利用密集块可疑程度度量方法对多维张量数据进行可疑程度度量的方法包括:将K维张量数据D作为输入数据;
将输入数据的每个维度下计数最少的一列删除,获得每个维度的剩余块bi,其中,i表示维度, ;
利用密集块可疑程度度量方法计算每个维度的剩余块bi的可疑程度DGCS值,得到K个DGCS值。
3.根据权利要求2所述的一种基于Possion分布的多密集块检测与提取方法,其特征在于,得到包含多个可疑的数据快照的snapshots列表的方法包括:比较K个DGCS值,将DGCS值最高的剩余块记为 ;
判断剩余块 是否满足密集块尺寸范围,如果满足,将剩余块 作为数据快照B;
将数据快照B与其DGCS值关联后存入snapshots列表中;
将剩余块 作为新的输入数据,重新进行可疑程度度量并提取新的数据快照存入snapshots列表中,直至输入数据为空,得到包含多个可疑的数据快照的snapshots列表。
4.根据权利要求1所述的一种基于Possion分布的多密集块检测与提取方法,其特征在于,通过数据集成、数据脱敏、数据清洗和数据建模将待检测数据转换成多维张量数据。