1.一种基于大数据的关键数据挖掘方法,其特征在于,包括:
获取挖掘场景信息;其中,所述挖掘场景信息包括挖掘项目和目标对象;
基于所述挖掘场景信息得到数据分析信息;其中,所述数据分析信息包括至少一个反映关键数据的信息;
所述基于所述挖掘场景信息得到数据分析信息,包括:
基于所述挖掘项目得到关键词信息;其中,所述关键词信息包括多个与所述挖掘项目相关的关键词;
基于所述目标对象得到浏览信息;其中,所述浏览信息包括多个经过数据清洗后的浏览记录以及与所述浏览记录相对应的日时间戳,所述浏览记录包括所述目标对象在单日内的全部的搜索关键词以及与各个所述搜索关键词相对应的搜索时间,和所述目标对象在单日内访问的全部的网页地址,与各个所述网页地址相对应的内容关键词、访问时间和停留时长;
基于所述关键词信息和所述浏览信息得到所述数据分析信息;
所述基于所述关键词信息和所述浏览信息得到所述数据分析信息,包括:
基于所述浏览信息得到兴趣时长信息和兴趣频次信息;其中,所述兴趣时长信息包括至少一个兴趣时长,所述兴趣时长反映所述浏览记录内某个所述内容关键词对应的所述网页地址的所述停留时长之和,所述兴趣频次信息包括至少一个兴趣频次,所述兴趣频次反映所述浏览记录内某个所述内容关键词对应的所述网页地址的个数与所述浏览记录内的全部的所述网页地址的个数的比值;
基于所述兴趣时长信息和所述关键词信息得到预选数据分析信息;其中,所述预选数据分析信息中包括至少一个第一分析词和至少一个第二分析词,所述第一分析词反映一个所述内容关键词,所述第二分析词反映一个所述内容关键词;
基于所述预选数据分析信息和所述兴趣频次信息得到所述数据分析信息。
2.如权利要求1所述的基于大数据的关键数据挖掘方法,其特征在于,所述基于所述浏览信息得到兴趣时长信息和兴趣频次信息,包括:分别对各个所述浏览记录进行分析,将所述浏览记录中各个所述搜索关键词相对应的所述搜索时间确认为检索节点,将与所述检索节点相邻的且位于所述检索节点之前的所述网页地址确认为兴趣网址,将与所述检索节点相邻的且位于所述检索节点之后的所述网页地址确认为验证网址;
若所述兴趣网址对应的所述内容关键词与所述兴趣网址相邻的所述检索节点相邻的所述验证网址对应的所述内容关键词相关,则向所述兴趣网址和所述验证网址添加兴趣标签后,以所述验证网址为检索起点,按所述访问时间反映的时间顺序依次向后对所述网页地址添加所述兴趣标签,直到所述网页地址对应的内容关键词与所述兴趣网址对应的所述内容关键词不相关时为止;其中,所述兴趣标签为与所述兴趣网址对应的所述内容关键词;
分别将所述内容关键词相同的所述兴趣标签对应的所述网页地址对应的所述停留时长相加后得到至少一个与所述兴趣标签对应的所述内容关键词相对应的所述兴趣时长后,将全部的所述兴趣时长确认为兴趣时长信息;
分别对各个所述浏览记录进行分析,分别将所述浏览记录中对应的所述内容关键词相同的所述网页地址的个数相加后除以所述浏览记录中全部的所述网页地址的个数得到的值确认为所述兴趣频次后,将全部的所述兴趣频次确认为所述兴趣频次信息。
3.如权利要求1所述的基于大数据的关键数据挖掘方法,其特征在于,所述基于所述兴趣时长信息和所述关键词信息得到预选数据分析信息,包括:将所述兴趣时长信息中对应的所述内容关键词属于所述关键词信息的所述兴趣时长确认为偏好信息,将所述兴趣时长信息中对应的所述内容关键词不属于所述关键词信息的所述兴趣时长确认为偏好比较信息;
分别将所述偏好信息中各个所述兴趣时长除以相对应的所述浏览记录中全部的所述停留时长之和,得到多个偏好比例,分别将所述偏好比较信息中各个所述兴趣时长除以相对应的所述浏览记录中全部的所述停留时长之和,得到多个偏好比较比例;
将各个所述偏好比例和各个所述偏好比较比例按对应的所述内容关键词进行分组,使各组内的所述偏好比例或所述偏好比较比例对应的所述内容关键词相同后,对各组内的所述偏好比例或所述偏好比较比例按对应的所述浏览记录的所述日时间戳由远至近进行排序,得到排序表;
基于所述排序表得到分析词信息;
基于所述分析词信息分别对各个所述浏览记录进行分析得到所述预选数据分析信息。
4.如权利要求3所述的基于大数据的关键数据挖掘方法,其特征在于,所述基于所述排序表得到分析词信息,包括:分别对所述排序表中的各组进行分析;
步骤一,将组内第n个所述偏好比例或所述偏好比较比例确认为第一值,若n+1小于或等于组内所述偏好比例或所述偏好比较比例的个数,将组内第n+1个所述偏好比例或所述偏好比较比例确认为第二值,若n+1大于组内所述偏好比例或所述偏好比较比例的个数,则执行步骤三;其中,n的初始值为1;
步骤二,将所述第二值减去所述第一值再除以所述第一值后得到的数值确认为变化率,并将n+1代入所述步骤一中的n后重复进行所述步骤一;
步骤三,若组内的数据均为所述偏好比例,则将得到的全部的所述变化率确认为偏好变化趋势,若组内的数据均为所述偏好比较比例,则将得到的全部的所述变化率确认为比较变化趋势;
所述排序表中的各组均分析完成后,分别将各个所述偏好变化趋势中的所述变化率乘以1.05和乘以0.95后得到的数值形成的区间确认为变化区间;
分别对各个所述比较变化趋势进行分析,使所述比较变化趋势与各个所述偏好变化趋势进行比较,将所述比较变化趋势中各所述变化率均在同一个所述偏好变化趋势中的按时间对应的所述变化区间内的所述比较变化趋势对应的所述内容关键词确认为分析词;
将全部的所述分析词确认为所述分析词信息。
5.如权利要求3所述的基于大数据的关键数据挖掘方法,其特征在于,所述基于所述分析词信息分别对各个所述浏览记录进行分析得到所述预选数据分析信息,包括:步骤a,将所述分析词信息中的一个所述分析词 确认为分隔词;
步骤b,分别将各个所述浏览记录中,按时间顺序出现的第一个与所述分隔词相同的所述搜索关键词对应的所述搜索时间或内容关键词对应的所述访问时间确认为分隔时间;
步骤c,分别将各个所述浏览记录中,位于所述分隔时间之前的对应的所述内容关键词相同的各个所述网页地址对应的所述停留时长相加后得到至少一个前分隔时长,将位于所述分隔时间之后的对应的所述内容关键词相同的各个所述网页地址对应的所述停留时长相加后得到至少一个后分隔时长;
步骤d,判断所述分析词信息中的所述分析词是否均被确认为所述分隔词,若所述分析词信息中的所述分析词均被确认为所述分隔词,则将全部的所述前分隔时长和所述后分隔时长确认为分隔时间信息,若所述分析词信息中存在所述分析词未被确认为所述分隔词,则将未被确认为所述分隔词的所述分析词中的一个所述分析词确认为所述分隔词后重复进行所述步骤b、所述步骤c和所述步骤d;其中,所述分隔时间信息包括与各个所述浏览记录相对应的至少一个所述前分隔时长、至少一个所述后分隔时长和至少一个与所述前分隔时长和所述后分隔时长同时对应的所述分隔词;
基于所述分隔时间信息得到所述预选数据分析信息。
6.如权利要求5所述的基于大数据的关键数据挖掘方法,其特征在于,所述基于所述分隔时间信息得到所述预选数据分析信息,包括:步骤e,将一个所述后分隔时长对应的所述内容关键词确认为对比词;
步骤f,判断所述对比词对应的所述浏览记录对应的所述前分隔时长对应的所述内容关键词中是否存在与所述对比词相同的所述内容关键词,若存在,则执行步骤g,若不存在,则将所述后分隔时长对应的所述分隔词确认为所述第一分析词后执行步骤h;
步骤g,判断所述前分隔时长和所述后分隔时长的大小,若所述前分隔时长大于或等于所述后分隔时长,则执行所述步骤h,若所述前分隔时长小于所述后分隔时长,则将所述后分隔时长对应的所述分隔词确认为所述第二分析词;
步骤h,将另一个所述后分隔时长对应的所述内容关键词确认为所述对比词后重复进行所述步骤f和所述步骤g,直到所有的所述内容关键词均被确认为所述对比词;
将全部的所述第一分析词和所述第二分析词确认为所述预选数据分析信息。
7.如权利要求1所述的基于大数据的关键数据挖掘方法,其特征在于,所述基于所述预选数据分析信息和所述兴趣频次信息得到所述数据分析信息,包括:将所述兴趣频次信息中的所述兴趣频次按从大到小进行排序,得到频次表;
将所述频次表中位于前30%的所述兴趣频次确认为第一分析频次信息,将所述频次表中位于前50%的所述兴趣频次确认为第二分析频次信息;
将全部的所述第一分析词中与所述第二分析频次信息中的所述兴趣频次对应的所述内容关键词相同的所述第一分析词确认为第一数据,将全部的所述第二分析词中与所述第一分析频次信息中的所述兴趣频次对应的所述内容关键词相同的所述第二分析词确认为第二数据;
将所述第一数据和所述第二数据确认为所述数据分析信息。
8.一种基于大数据的关键数据挖掘设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。