1.一种热点事件抽取方法,其特征在于,所述方法包括:对目标文本集合中各文本进行段落划分,获得多个段落;
对所述多个段落进行主题聚类,形成至少一个主题簇;
确定每个所述主题簇的热度值;
按照段落抽取规则,至少从热度值最高的主题簇中抽取目标段落,所述目标段落能够代表所属主题簇;以及至少根据从热度值最高的主题簇中抽取出的所述目标段落,形成对应于所述目标文本集合的热点事件。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个段落进行主题聚类,形成至少一个主题簇,包括:根据所述多个段落中任意两个段落之间的相似度,构建段落相似度矩阵;
创建一n维向量X={x1,x2,x3,…,xn},其中,xi对应于第i个段落,n为当前剩余段落数,初始状态下,n为所述多个段落的总数;
按照如下公式(1)迭代计算向量X中的第i个元素xi,直至每一个xi(t+1)与xi(t)之间的差值均小于预设阈值、或者迭代次数t达预设次数为止,获得目标X:其中,A为所述段落相似度矩阵;t表示迭代次数,初始值为0;
选取由当前目标X中大于零的数值所对应的段落形成一主题簇,并根据所述当前目标X中大于零的数值确定与该主题簇对应的主题向量;
将所述段落相似度矩阵中与被选取段落相关的数据项删除,并更新当前剩余段落数n;
返回所述创建一n维向量X的步骤,直至所述当前剩余段落数为零。
3.根据权利要求1或2所述的方法,其特征在于,所述确定每个所述主题簇的热度值,包括:针对每个所述主题簇,根据该主题簇中段落间相似度的平均值,以及该主题簇中段落的个数,确定该主题簇对应的内在得分:根据所述主题簇的形成顺序,确定每个所述主题簇的外在得分;
根据每个所述主题簇的所述内在得分和所述外在得分,确定每个所述主题簇的热度值。
4.根据权利要求3所述的方法,其特征在于,所述根据该主题簇中段落间相似度的平均值,以及该主题簇中段落的个数,确定该主题簇对应的内在得分,包括:按照如下公式(2)计算第i个形成的主题簇ci的内在得分Scorein(ci):Scorein(ci)=avg sim(ci)*log2num(ci) (2)其中,avg sim(ci)为主题簇ci中段落间相似度的平均值,num(ci)为主题簇ci中段落的个数;
所述根据所述主题簇的形成顺序,确定每个所述主题簇的外在得分,包括:按照如下公式(3)计算所述主题簇ci的外在得分Scoreout(ci):Scoreout(ci)=H(1/i) (3)其中,H为第一预设系数,且1
5.根据权利要求2所述的方法,其特征在于,所述段落抽取规则包括:按照如下公式(4)计算待抽取主题簇的段落s的得分Score(s):Score(s)=Q*v(s)+(1-Q)*avg(ps(s)) (4)其中,Q为第二预设系数,且0
将得分最高的段落确定为所述目标段落。
6.根据权利要求5所述的方法,其特征在于,所述段落抽取规则还包括:按照如下公式(5)更新所述目标段落中各词在所述目标文本集合中的出现概率pw:pwm+1(w)=pwm(w)*pwm(w) (5)其中,pwm(w)为词w当前在所述目标文本集合中的出现概率,pwm+1(w)表示更新后的词w在所述目标文本集合中的出现概率。
7.根据权利要求1或2所述的方法,其特征在于,所述至少根据从热度值最高的主题簇中抽取出的所述目标段落,形成对应于所述目标文本集合的热点事件,包括:在从热度值最高的主题簇中抽取出的所述目标段落的文本长度小于预设长度的情况下,按照所述段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落;
比较当前已抽取出的目标段落的总文本长度与所述预设长度;
在所述当前已抽取出的目标段落的总文本长度等于所述预设长度的情况下,根据所述当前已抽取出的目标段落,形成对应于所述目标文本集合的热点事件;
在所述当前已抽取出的目标段落的总文本长度大于所述预设长度的情况下,根据在本次抽取出的所述新的目标段落之前抽取出的目标段落,形成对应于所述目标文本集合的热点事件;
在所述当前已抽取出的目标段落的总文本长度小于所述预设长度的情况下,返回所述按照所述段落抽取规则继续从热度值排名下一位的主题簇中抽取新的目标段落的步骤。
8.一种热点事件抽取装置,其特征在于,所述装置包括:划分模块,用于对目标文本集合中各文本进行段落划分,获得多个段落;
聚类模块,用于对所述多个段落进行主题聚类,形成至少一个主题簇;
第一确定模块,用于确定每个所述主题簇的热度值;
抽取模块,用于按照段落抽取规则,至少从热度值最高的主题簇中抽取目标段落,所述目标段落能够代表所属主题簇;以及第二确定模块,用于至少根据从热度值最高的主题簇中抽取出的所述目标段落,形成对应于所述目标文本集合的热点事件。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。