利索能及
我要发布
收藏
专利号: 2019109839429
申请人: 乐山师范学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于新闻报道的突发事件线索提取方法,其特征在于,包括如下步骤:S1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理;

S2、以语句为单位,根据所述预处理结果对事件进行抽取;

S3、根据事件抽取结果得到事件的分布式向量表示,并构建事件语义知识;

S4、以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型;

S5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合;

S6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图;

S7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件线索的提取;

所述步骤S7包括如下步骤:

S701、根据所述事件时序关系图利用改进的拓扑排序算法输出事件结点序列;

S702、判断所述时序关系图中是否有未输出的事件结点,若有,则时序关系图的剩余子图中有环存在,并进入步骤S703,否则,进入步骤S704;

S703、删除所述剩余子图中的所有弧,并依次扫描已输出事件结点序列中的结点事件到剩余子图中每个未输出结点事件的弧,按时序关系的强度选择弧并输出每一个未输出结点事件,记录当前弧;

S704、由输出的事件结点序列以及所述记录的当前弧构成突发事件线索,从而完成对突发事件线索的提取;

所述步骤S701包括如下步骤:

S7011、根据所述事件时序关系图构建优先队列,并将时序关系图中的入度为零的结点事件作入队操作;

S7012、依次对所述优先队列中入度为零的结点事件作出队操作,输出该事件并删除以该输出事件为尾的弧;

S7013、判断是否有新的入度为零的结点事件,若是,则将该结点事件作入队操作,并记录当前删除的弧,并返回步骤S7012,否则,进入步骤S702。

2.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S1中的预处理包括词性标注、依存分析和指代消解。

3.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S2包括如下步骤:S201、以语句为单位,并根据所述预处理结果提取事件中所有的谓语关系对;

S202、判断所述谓语关系对是否存在相同的谓语,若是,则将相同的谓语合并为一个三元组事件,并进入步骤S3,否则,将所述谓语关系对保留为二元组事件,并进入步骤S3,从而完成对事件的抽取。

4.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S3包括如下步骤:S301、根据事件抽取结果利用Word2Vec算法在新闻语料上得到词向量表示;

S302、根据所述词向量表示利用组合语义算法计算得到事件的分布式向量表示;

S303、根据所述事件分布式表示利用欧式距离算法计算得到事件间的相似度;

S304、根据所述事件间的相似度构建事件语义知识。

5.根据权利要求4所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S302中事件分布式表示包括以下任意一种情况:第一种情况:

若事件为三元组事件,则根据事件的谓语向量以及事件的主语向量和宾语向量的克罗内克积计算得到事件分布式表示,其所述事件分布式表示 的表达式如下:

第二种情况:

若事件为二元组事件,则根据事件的谓语向量以及事件的主语或宾语的向量计算得到事件分布式表示,其所述事件分布式表示为 或 表达式如下:其中, 表示克罗内克积运算,·表示点乘运算, 表示事件谓语向量, 表示事件主语向量, 表示事件宾语向量。

6.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S4包括如下步骤:S401、以事件对为词条,设置生成事件主题的多项式分布参数 其中, 表示各事件在主题k下的分布,Dir(β)表示分布服从超参数为β的狄利克雷分布;

S402、设置生成文档主题的多项式公布参数θm~Dir(α),其中,θm表示文档m的主题分布,Dir(α)表示分布服从超参数为α的狄利克雷分布;

S403、对每篇新闻文档m中事件共现对b(ei,ej)分别采样生成主题zb~Mult(θm)和采样生成事件 及事件 且在采样过程中利用波利亚罐子模型和所述事件语义知识引入事件相似度,所述事件相似度的阈值调节表达式如下:其中,b表示文档m中出现的任一事件共现对,ei表示事件i,ej表示事件j,zb表示当前采样过程中事件共现对b的主题,Mult(θm)表示服从参数为θm的多项式分布, 表示服从参数为 的多项式分布, 表示事件ei和事件ej调节后的相似度,σ表示设置的阈值,sim(ei,ej)表示事件语义知识中得到的事件ei和事件ej的相似度;

S404、根据所述主题采样和事件采样得到事件主题分布 和文档主题分布θ,并根据所述事件主题分布 和文档主题分布θ构建事件主题模型。

7.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S6包括如下步骤:S601、以所述主题事件集合中的每个主题事件为结点,并利用统计规则确定任意一事件对的时序关系;

S602、根据事件的先后顺序以先发生的事件为弧尾,后发生的事件为弧头,构建事件时序关系图。

8.根据权利要求7所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S601中利用统计规则确定任意一事件对的时序关系包括以下任意一种情况:第一种情况:

若统计的两个主题事件均出现在相同文档的概率p1最大,则统计所述两个主题事件在同一文档中出现的位置先后顺序p2,且若事件ei先于事件ej,其时序关系的强度为:p=p1×p2;

第二种情况:

若统计的两个主题事件出现在不同文档的概率p3最大,则统计所述两个主题事件所在文档的报道时间的先后顺序p4,且若事件ei先于事件ej,其时序关系的强度为:p=p3×p4。