1.一种基于大数据的数据分类存储系统,其特征在于,所述数据分类存储系统包括数据库、预判断模块、考察地址划分模块、第一地址分析模块、第二地址分析模块和未读标识添加模块,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长,所述预判断模块用于在预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,判断某个待分类文件的发件地址是否为黑名单中的发件地址,在判断发件地址是黑名单中的发件地址时,将该待分类文件存入垃圾箱,在判断发件地址为黑名单以外的发件地址时,设待分类文件的发件地址为考察地址,并令考察地址划分模块将考察地址划分为第一地址和第二地址,所述第一地址分析模块对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式,所述第二地址分析模块从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式,所述未读标识添加模块用于在文件存入相应的数据库中时给文件添加相应的未读标识;
所述考察地址划分模块包括第一相似度获取模块、参照文件选取模块和地址分类模块,所述第一相似度获取模块采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,所述参照文件选取模块将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,所述地址分类模块获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
2.根据权利要求1所述的一种基于大数据的数据分类存储系统,其特征在于:所述第一地址分析模块包括回点次数获取模块、回点次数比较模块和第一存储指数比较模块,所述回点次数获取模块用于获取各个第一地址所对应的参照文件的回点次数,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数,所述回点次数比较模块用于判断回点次数是否大于等于1,在某个第一地址所对应的回点次数大于等于1的时候,将该第一地址所对应的待分类文件存入常用数据库,在某个第一地址所对应的回点次数小于1的时候,所述第一存储指数比较模块采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,在第一存储指数大于等于第一存储阈值时,将该第一地址所对应的待分类文件存入常用数据库,在第一存储指数小于第一存储阈值时,将该第一地址所对应的待分类文件存入临时数据库。
3.根据权利要求2所述的一种基于大数据的数据分类存储系统,其特征在于:所述第二地址分析模块包括第一指数获取模块、第二指数获取模块、关联指数计算模块、关联差值计算模块、关联地址选取模块和预降级标识添加模块,所述第一指数获取模块获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,所述第二指数获取模块获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值,所述关联指数计算模块根据第一指数、第二指数计算考察地址的关联指数P=0.5*C0/Cz+
0.5*G0/Cz,所述关联差值计算模块用于计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,所述关联地址选取模块将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,所述预降级标识添加模块当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。
4.一种基于大数据的数据分类存储方法,其特征在于:所述数据分类存储方法包括以下步骤:
预先建立数据库,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长;
当预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,当某个待分类文件的发件地址为黑名单中的发件地址时,将该待分类文件存入垃圾箱;
获取待分类文件的发件地址为黑名单以外的发件地址为考察地址,并将考察地址划分为第一地址和第二地址,
对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式;
从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式;
所述将考察地址划分为第一地址和第二地址包括:采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
5.根据权利要求4所述的一种基于大数据的数据分类存储方法,其特征在于:所述对第一地址所发送的文件进行分析包括:
分别获取各个第一地址所对应的参照文件的回点次数,当回点次数大于等于1时,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数;
否则,采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,
如果第一存储指数大于等于第一存储阈值,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,所述未读标识在文件被点击阅读后消失,如果第一存储指数小于第一存储阈值,那么将该第一地址所对应的待分类文件存入临时数据库,并添加未读标识。
6.根据权利要求5所述的一种基于大数据的数据分类存储方法,其特征在于:所述从第一地址中选取第二地址的关联地址包括:获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值;
那么某个考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,并将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,并添加未读标识。
7.根据权利要求6所述的一种基于大数据的数据分类存储方法,其特征在于:所述确认第二地址所对应的待分类文件的存储方式还包括:当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。