1.一种社区热点主题的挖掘方法,其特征在于,所述方法包括:获取社区帖子中的多个词语,确定每个所述词语在预设时长内的第一热度值;
基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值;
针对第一目标词语,获取包含有所述第一目标词语与第二目标词语的第一语料数量,以及获取包含有所述第二目标词语的第二语料数量;基于所述第一语料数量及所述第二语料数量确定参考主题;所述第一目标词语为所有词语中的任一词语,所述第二目标词语为除所述第一目标词语之外的剩余词语中的任一词语;
针对每个参考主题,确定所述参考主题中的第一参考词语及第二参考词语,基于所述第一参考词语、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题为热点主题。
2.如权利要求1所述的方法,其特征在于,所述确定每个所述词语在预设时长内的第一热度值,包括:
根据公式 确定所述词语的第一热度值S(wi);其中,所述wi为所述第一目标词语,所述i为词语序号,所述Tn为预设时长内的第n个时间段,所述n为预设时长包含的时间段的总数量,所述Tj为预设时长内的第j个时间段,所述j为任一时间段,j≤n;所述N(wi,Tn)为第一目标词语wi在第n个时间段Tn中出现的总次数,所述N(wi,Tj)为第一目标词语wi在第n个时间段Tn中出现的总次数。
3.如权利要求1所述的方法,其特征在于,所述基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值,包括:基于公式 确
定每个所述第一目标词语wi的第二热度值F(wi);其中,所述wi为所述第一目标词语,所述i为词语序号,所述m为词语的总数量,所述Tn为预设时长内的第n个时间段,所述n为预设时长包含的时间段的总数量,所述Xn为所述第一目标词语在第n个时间段内出现的次数,所述S(wi)为第一热度值,所述N(wi,Tn)为第一目标词语wi在第n个时间段Tn中出现的总次数。
4.如权利要求1所述的方法,其特征在于,所述基于所述第一语料数量及所述第二语料数量确定参考主题,包括:
根据公式 确定所述第一目标词语的主题能力表达值H(wi);
若确定所述主题能力表达值大于预设的主题表达阈值,则将所述第一目标词语及所述第二目标词语形成的主题确定为所述参考主题;其中,所述wi为所述第一目标词语,所述wh为所述第二目标词语,所述i和h为词语序号,所述i和h的值不同;所述m为词语的总数量,所述C(wi,wh)为包含有所述第一目标词语与所述第二目标词语的第一语料数量,所述C(wi)为包含有所述第二目标词语的第二语料数量,所述语料为社区帖子中的正文或者评论。
5.如权利要求1所述的方法,其特征在于,所述基于所述第一参考词语、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题为热点主题,包括:
基于所述第一参考词语的第二热度值、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题的热度值;
若确定所述热度值大于预设的热度阈值,则确定所述参考主题为热点主题。
6.如权利要求5所述的方法,其特征在于,所述基于所述第一参考词语的第二热度值、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题的热度值,包括:根据公式T(p(wj,wk))=C(wj,wk)max(F(wj),F(wk))确定所述参考主题的热度值T(p(wj,wk));其中,
所述p(wj,wk)为所述第一参考词语wj和所述第二参考词语wk形成的参考主题,所述j和k为词语序号,所述j和k的值不同;所述C(wj,wk)为包含有所述第一参考词语与第二参考词语的第三语料数量,所述F(wj)为所述第一参考词语的第二热度值,所述F(wk)为所述第二参考词语的第二热度值。
7.一种社区热点主题的挖掘装置,其特征在于,所述装置包括:第一确定单元,用于获取社区帖子中的多个词语,确定每个所述词语在预设时长内的第一热度值;
修正单元,用于基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值;
第二确定单元,针对第一目标词语,获取包含有所述第一目标词语与第二目标词语的第一语料数量,以及获取包含有所述第二目标词语的第二语料数量;基于所述第一语料数量及所述第二语料数量确定参考主题;所述第一目标词语为所有词语中的任一词语,所述第二目标词语为除所述第一目标词语之外的剩余词语中的任一词语;
第三确定单元,用于针对每个参考主题,确定所述参考主题中的第一参考词语及第二参考词语,基于所述第一参考词语、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题为热点主题。
8.如权利要求7所述的装置,其特征在于,所述第一确定单元具体用于:根据公式 确定所述词语的第一热度值S(wi);其中,所述wi为所述第一目标词语,所述i为词语序号,所述Tn为预设时长内的第n个时间段,所述n为预设时长包含的时间段的总数量,所述Tj为预设时长内的第j个时间段,所述j为任一时间段,j≤n;所述N(wi,Tn)为第一目标词语wi在第n个时间段Tn中出现的总次数,所述N(wi,Tj)为第一目标词语wi在第n个时间段Tn中出现的总次数。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的方法。