1.一种生成游戏社区话题的方法,其特征在于,所述方法包括:
根据游戏社区的帖子生成预设格式的话题元组;所述话题元组中包含2个游戏实体词;
遍历所有的所述话题元组,确定任意两个所述话题元组之间的参考相似度;
若确定所述参考相似度大于相似度阈值时,则将所述两个话题元组归类到同一话题类别中;
针对每个所述话题类别,将所述话题类别中的所有话题元组进行合并,获得对应的游戏社区话题;
所述根据游戏社区的帖子生成预设格式的话题元组,包括:
针对任一所述帖子,基于预设的分隔符将所述帖子拆分为至少一个子句;
对所述子句进行分词,获得多个词语;
在所述多个词语中识别游戏实体词,若确定所述游戏实体词大于或等于数量阈值时,则将所述多个词语按照tp={lp,t1,mp,t2,rp}的格式生成对应的话题元组tp;其中,所述t1和所述t2为相邻的游戏实体词,所述lp包括在所述多个词语中位于所述游戏实体词t1左边的普通词语及对应的权重,所述mp包括在所述多个词语中位于所述游戏实体词t1和所述游戏实体词t2之间的普通词语及对应的权重,所述rp包括在所述多个词语中位于所述游戏实体词t2右边的普通词语及对应的权重。
2.如权利要求1所述的方法,其特征在于,所述将所述多个词语按照tp={lp,t1,mp,t2,rp}的格式生成对应的话题元组tp,包括:针对任意两个相邻的游戏实体词,以所述游戏实体词的位置为分隔符确定词语窗口;
所述词语窗口包括:位于游戏实体词t1左边的第一词语窗口、位于所述游戏实体词t1和游戏实体词t2之间的第二词语窗口以及位于所述游戏实体词t2右边的第三词语窗口;
将位于所述游戏实体词t1左边的普通词语填入至所述第一词语窗口,将位于所述游戏实体词t1和所述游戏实体词t2之间的普通词语填入至所述第二词语窗口,将位于所述游戏实体词t2右边的普通词语填入至所述第三词语窗口,形成话题元组tp={lp,t1,mp,t2,rp}。
3.如权利要求1所述的方法,其特征在于,所述将所述多个词语按照tp={lp,t1,mp,t2,rp}的格式生成对应的话题元组tp后,方法还包括:针对所述话题元组中的任一普通词语,确定包含有所述普通词语的目标帖子数量;
获取游戏社区中所有帖子的总数量;
基于所述目标帖子数量及所述总数量确定所述普通词语的权重;所述权重为所述目标帖子数量与所述总数量之间的商值。
4.如权利要求1所述的方法,其特征在于,所述确定所述两个话题元组之间的参考相似度,包括:若确定所述两个话题元组中对应位置的游戏实体词相同,则基于公式
确定话题元组tp和
话题元组ts之间的参考相似度M(tp,ts);其中,
所述 为所述话题元组tp对应的多个词语中的lp的普通词语的集合,所述lp包括所述话题元组tp对应的多个词语中位于游戏实体词t1左边的普通词语及对应的权重;所述 为所述话题元组ts中的ls的普通词语的集合,所述ls包括所述话题元组ts对应的多个词语中位于游戏实体词t1左边的普通词语及对应的权重;所述k1为所述 和 的交集中的任一普通词语;所述 为当lp中的普通词语为k1时对应的权重;所述 为当ls中的普通词语为k1时对应的权重;
所述 为所述话题元组tp对应的多个词语中的mp的普通词语的集合,所述mp包括所述话题元组tp对应的多个词语中位于所述游戏实体词t1和游戏实体词t2之间的普通词语及对应的权重;所述 为所述话题元组ts对应的多个词语中的ms的普通词语的集合,所述ms包括所述话题元组ts对应的多个词语中位于所述游戏实体词t1和游戏实体词t2之间的普通词语及对应的权重;所述k2为所述 和 的交集中的任一普通词语;所述 为当mp中的普通词语为k2时对应的权重,所述 为当ms中的普通词语为k2时对应的权重;
所述 为所述话题元组tp对应的多个词语中的rp的普通词语的集合,所述rp包括在所述多个词语中位于所述游戏实体词t2右边的普通词语及对应的权重;所述 为所述话题元组ts对应的多个词语中的rs的普通词语的集合,所述rs包括在所述多个词语中位于所述游戏实体词t2右边的普通词语及对应的权重;所述k3为所述 和 的交集中的任一普通词语;
所述 为当rp中的普通词语为k3时对应的权重,所述 为当rs中的普通词语为k3时对应的权重。
5.如权利要求1所述的方法,其特征在于,将所述话题类别中的所有话题元组进行合并,获得对应的游戏社区话题,包括:确定所述话题类别中所有话题元组中每个初始lp中的普通词语在所有帖子中出现的次数、每个初始mp中的普通词语在所有帖子中出现的次数、以及每个初始rp中的普通词语在所有帖子中出现的次数;
按照次数从多到少的顺序分别对所述初始lp中的普通词语、所述初始mp中的普通词语及所述初始rp中的普通词语进行保留,分别获得对应的目标普通词语;
基于所述目标普通词语以及所述目标普通词语的权重对应确定目标lp、目标mp以及目标rp;
将所述目标lp、所述目标mp、所述目标rp、以及相邻的两个游戏实体词生成所述游戏社区话题;其中,所述lp包括在所述多个词语中位于所述游戏实体词t1左边的普通词语及对应的权重,所述mp包括在所述多个词语中位于所述游戏实体词t1和所述游戏实体词t2之间的普通词语及对应的权重,所述rp包括在所述多个词语中位于所述游戏实体词t2右边的普通词语及对应的权重。
6.一种生成游戏社区话题的装置,其特征在于,所述装置包括:
生成单元,用于根据游戏社区的帖子生成预设格式的话题元组;所述话题元组中包含2个游戏实体词;
确定单元,用于遍历所有的所述话题元组,确定任意两个所述话题元组之间的参考相似度;
归类单元,用于若确定所述参考相似度大于相似度阈值时,则将所述两个话题元组归类到同一话题类别中;
合并单元,用于针对每个所述话题类别,将所述话题类别中的话题元组进行合并,获得对应的游戏社区话题;
所述生成单元具体用于:
针对任一所述帖子,基于预设的分隔符将所述帖子拆分为至少一个子句;
对所述子句进行分词,获得多个词语;
在所述多个词语中识别游戏实体词,若确定所述游戏实体词大于或等于数量阈值时,则将所述多个词语按照tp={lp,t1,mp,t2,rp}的格式生成对应的话题元组tp;其中,所述t1和所述t2为相邻的游戏实体词,所述lp包括在所述多个词语中位于所述游戏实体词t1左边的普通词语及对应的权重,所述mp包括在所述多个词语中位于所述游戏实体词t1和所述游戏实体词t2之间的普通词语及对应的权重,所述rp包括在所述多个词语中位于所述游戏实体词t2右边的普通词语及对应的权重。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一项所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的方法。