1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;
S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;
S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;
S6、计算每个重要新闻簇的标准时间戳;
S7、计算每个重要新闻簇的代表事件;
S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
2.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S2具体包括以下步骤:S21、去除语料词典的停用词;
S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;
S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:terms={term1,...,term50} (1)在公式(1)中,terms为特征词集合,term1,...,term50均为词条;
S24、采用向量空间模型表示每篇新闻报道:
doci=(tfidfi,1,...,tfidfi,50) (2)在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。
3.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S5具体包括以下步骤:S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;
S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分, 为所有新闻簇的报道转发量得分之和;
S53、计算新闻报道数据集D中各个不同报道来源sitei的重要度,计算公式为:在公式(5)中,siteScore(sitei)为报道来源sitei的重要度,其中{doc:doc∈sitei}为来源于sitei的新闻报道数量;
S54、统计新闻簇Ci中的报道来源sitei的重要度siteScore(sitei),归一化后得到其报道来源重要度得分,计算公式为:在公式(6)中,SrcScore(Ci)为报道来源重要度得分, 为新闻簇Ci中不同报道来源sitei的重要度得分之和, 为数据集D中不同报道来源sitej的重要度得分之和;
S55、根据新闻簇Ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇Ci的重要度,计算公式为:Salience(Ci)=α×RptScore(Ci)+β×FwdScore(Ci)+γ×SrcScore(Ci) (7)在公式(7)中,Salience(Ci)为新闻簇Ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定,搜索步长为0.1;
S56、按新闻簇Ci的重要度Salience(Ci)对新闻簇Ci由高到低排序,选取重要度最高的k个新闻簇作为重要新闻簇。
4.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S6具体包括以下步骤:S61、取每个重要新闻簇中每篇新闻的报道时间作为该新闻的时间戳,若无报道时间,则抽取新闻正文中第一次出现的时间作为该新闻的时间戳;
S62、扫描每个重要新闻簇中每篇新闻的时间戳,取最小时间戳作为每个重要新闻簇的标准时间戳。
5.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S7具体包括以下步骤:S71、根据每个重要新闻簇内所有新闻报道每一维特征向量的平均值求取中心特征向量centroidRpt;
S72、计算每个重要新闻簇中每篇新闻报道doci到中心特征向量centroidRpt的余弦相似度sim(doci,centroidRpt),计算公式为:在公式(8)中,docik为新闻报道doci的第k维向量值,centroidRptk为中心特征向量的第k维向量值;
S73、取余弦相似度最大的新闻报道的标题作为该重要新闻簇的代表事件。