1.一种基于位运算和倒排索引的关联规则挖掘方法,其特征在于:包括位运算、建立倒排索引和快速连接,所述位运算包括以下步骤:(1)将事务数据库D中的每一项Ij的列向量定义为Rj=(t1j,t2j,...,tnj),其中n是事务数据库D的事务总数,如果Tid=m的事务包含项Ij,则tmj=1,否则tmj=0,引入向量存储后,则可采用位运算来进行支持数和子集检测的运算;
(2)计算项目Ij和Ik的支持数,等价于计算向量Rj和Rk按位“与”之后包含“1”的个数;
(3)判断向量Rj是否是Rk的子集,等价于判断是否Rj==(Rj&Rk),其中“&”是按位“与”运算;
所述建立倒排索引为:首先对数据库进行全库扫描,并对每项事务进行逐个比对,以求得其支持数,设数据库D的事务个数为N,平均事务长度为m,在计算一个候选项目集Ck时,算法的复杂度为O(k*m*N),为此引入倒排索引对每个项目获取其对应的Tid,并按Tid所在的事务长度进行分组,建立倒排索引;
所述快速连接为:对k-项频繁项目集,将其分为2部分进行存储,将其结构命名为first和second,其中first存储前k-1项,second存储第k项,并将前k-1项存储在一个向量中,进行连接时,如果两个项集的first相等,并且second的位权不相等,则直接生成一个新的候选项集,并将位权较小的部分存储在second,采用基于二进制位串的表示方式,在生成候选项集时,对前面部分比较,只需一次运算即可完成,无需对每个项进行单独的查找,比较。