1.一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,根据索引被访问的频率和概率,进行冷热索引的识别和分离,所述的冷热索引识别与分类管理方法包括以下步骤:T1、设定一个阈值,将被访问的频率或概率低于该阈值的索引归类为冷索引,否则为热索引;
T2、在内存中只预取和保留热索引,冷索引存到磁盘上一个区域;
T3、随着索引数量的不断增加,当内存不足以存放全部热索引时,将部分热索引存放到磁盘上另一个区域;
T4、查找密集型的数据去重系统,当在内存中查找索引未命中时,到磁盘上根据性能优先或者去重率优先进一步查找索引,其中,所述的性能优先方案仅查找磁盘上的热索引,忽略磁盘上的冷索引,所述的去重率优先方案先查找磁盘上的热索引,如未找到再查找磁盘上的冷索引。
2.根据权利要求1所述的一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,索引被访问的频率使用容器利用率来反映和预测,其中,所述的容器利用率是指在某次备份过程中某个容器被访问的频率或概率。
3.根据权利要求2所述的一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,所述的步骤T1中,根据容器利用率对容器进行降序排序,选择n个利用率最低的容器作为稀疏容器,判断索引是否指向稀疏容器,如果指向稀疏容器,该索引即为冷索引,否则为热索引,其中,n取值为正整数。
4.根据权利要求1所述的一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,所述的冷热索引识别与分类管理方法还包括以下步骤:在去重备份系统中配置布隆过滤器,并且只将热索引映射到布隆过滤器中。
5.根据权利要求1所述的一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,所述的冷热索引识别与分类管理方法中,将冷索引分类为无用索引和碎片索引,其中,无用索引即超低概率被访问的索引,碎片索引指的是碎片块的索引,对冷索引按照无用索引和碎片索引进行分离操作,并进行分类管理。
6.根据权利要求5所述的一种数据去重系统中的冷热索引识别与分类管理方法,其特征在于,在所述的去重率优先方案中,数据去重系统访问三种索引的优先级为:热索引优先级最高,碎片索引次之,无用索引最低。