1.一种基于大数据的热词挖掘系统,其特征在于,包含:
检索指向划分模块,用于基于线上索引内容的标题词条建立类别向量,所述类别向量用于表征线上索引内容对应主题类别的数字检索特征;
词条向量生成模块,用于获取预设偏差值内多个类别向量对应的所述线上索引内容的主体内容以及关联词条的词句内容,基于所述词句内容的单词进行低维空间映射,建立内容向量并进行向量统计,获取组别内的统计数据;
指向区间协同模块,用于对多个组别内统计数据进行交叉判断,获取某一所述内容向量在其他组别的出现频率,以生成对应内容向量的交叉热度,所述交叉热度表征词句内容在基于类别向量划分的多个组别内的出现占比;
热词挖掘评估模块,用于基于统计数据及交叉热度对所述内容向量进行综合热度评估,并基于多个内容向量的综合热度评估排序,获取数个热词对象;
所述词条向量生成模块包括:
向量偏差划分单元,用于获取多个类别向量,将多个所述类别向量进行空间表示,并通过预设的偏差值对多个类别向量进行聚散分析,以将多个类别向量进行组别划分,所述偏差值用于表征当所述词句内容的语言含义相近或相同时,对应类别向量的空间特征的波动范围;
词句向量生成单元,用于基于Harris分布式假设建立组别内数个词句的共现矩阵,并对所述共现矩阵乘以预设的投影向量,使得所述共现矩阵低维空间映射为内容向量;
词句向量统计单元,用于对组别内的数个内容向量进行向量统计,对应获取包含数个内容向量出现次数的组别内统计数据,所述向量统计基于预设偏差值实现;
所述指向区间协同模块包括:
交叉检索单元,用于将组别内的内容向量与其他组别进行交叉判断,获取所述内容向量在其他组别内的存在情况,所述交叉判断用于基于偏差值将其他组别内的内容向量与进行匹配的内容向量比对,判断是否用于表征相同或相近词句内容;
交叉统计单元,用于对所述内容向量在其他多个组别内出现的总次数以及在不同组别内的出现次数进行统计,以获取所述内容向量的交叉热度,即内容向量在其他话题下的出现概率;
所述热词挖掘评估模块包括:
交叉赋值单元,用于获取多个所述内容向量的交叉热度,基于出现频率进行交叉系数赋值,所述交叉系数赋值基于预设的赋值映射关系执行,所述赋值映射关系包括组别总数的级别划分及对应级别下出现频率对应的交叉系数,在级别划分确定时,所述交叉系数与出现频率成正比;
向量评估单元,用于基于内容向量的统计数据及其相对应的交叉系数和出现次数进行综合热度计算,并基于计算结果对多个内容向量进行排序,以获取数个热词对象,所述,所述热词对象即在排序中处于前预设数量个内容向量所对应的词句内容。
2.根据权利要求1所述的一种基于大数据的热词挖掘系统,其特征在于,还包括热词冷却模块;
所述热词冷却模块,用于通过牛顿冷却定律计算所述内容向量的冷却系数,所述冷却系数作用于内容向量的综合热度,所述冷却系数表示为 其中 表示当前综合热度, 表示历史综合热度,Δt表示时间差。
3.一种基于大数据的热词挖掘方法,其特征在于,包含步骤:
基于线上索引内容的标题词条建立类别向量,所述类别向量用于表征线上索引内容对应主题类别的数字检索特征;
获取预设偏差值内多个类别向量对应的所述线上索引内容的主体内容以及关联词条的词句内容,基于所述词句内容的单词进行低维空间映射,建立内容向量并进行向量统计,获取组别内的统计数据;
对多个组别内统计数据进行交叉判断,获取某一所述内容向量在其他组别的出现频率,以生成对应内容向量的交叉热度,所述交叉热度表征词句内容在基于类别向量划分的多个组别内的出现占比;
基于统计数据及交叉热度对所述内容向量进行综合热度评估,并基于多个内容向量的综合热度评估排序,获取数个热词对象;
所述获取预设偏差值内多个类别向量对应的所述线上索引内容的主体内容以及关联词条的词句内容,基于所述词句内容的单词进行低维空间映射,建立内容向量并进行向量统计,获取组别内的统计数据的步骤具体包括:获取多个类别向量,将多个所述类别向量进行空间表示,并通过预设的偏差值对多个类别向量进行聚散分析,以将多个类别向量进行组别划分,所述偏差值用于表征当所述词句内容的语言含义相近或相同时,对应类别向量的空间特征的波动范围;
基于Harris分布式假设建立组别内数个词句的共现矩阵,并对所述共现矩阵乘以预设的投影向量,使得所述共现矩阵低维空间映射为内容向量;
对组别内的数个内容向量进行向量统计,对应获取包含数个内容向量出现次数的组别内统计数据,所述向量统计基于预设偏差值实现;
所述对多个组别内统计数据进行交叉判断,获取某一所述内容向量在其他组别的出现频率,以生成对应内容向量的交叉热度的步骤具体包括:将组别内的内容向量与其他组别进行交叉判断,获取所述内容向量在其他组别内的存在情况,所述交叉判断用于基于偏差值将其他组别内的内容向量与进行匹配的内容向量比对,判断是否用于表征相同或相近词句内容;
对所述内容向量在其他多个组别内出现的总次数以及在不同组别内的出现次数进行统计,以获取所述内容向量的交叉热度,即内容向量在其他话题下的出现概率;
所述基于统计数据及交叉热度对所述内容向量进行综合热度评估,并基于多个内容向量的综合热度评估排序,获取数个热词对象的步骤具体包括:获取多个所述内容向量的交叉热度,基于出现频率进行交叉系数赋值,所述交叉系数赋值基于预设的赋值映射关系执行,所述赋值映射关系包括组别总数的级别划分及对应级别下出现频率对应的交叉系数,在级别划分确定时,所述交叉系数与出现频率成正比;
基于内容向量的统计数据及其相对应的交叉系数和出现次数进行综合热度计算,并基于计算结果对多个内容向量进行排序,以获取数个热词对象,所述,所述热词对象即在排序中处于前预设数量个内容向量所对应的词句内容。
4.根据权利要求3所述的一种基于大数据的热词挖掘方法,其特征在于,还包括步骤:通过牛顿冷却定律计算所述内容向量的冷却系数,所述冷却系数作用于内容向量的综合热度,所述冷却系数表示为 其中 表示当前综合热度,表示历史综合热度,Δt表示时间差。