利索能及
我要发布
收藏
专利号: 2021104677730
申请人: 乐山师范学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种针对突发事件新闻的文本分类方法,其特征在于,包括以下步骤:从网上收集新闻文档,完成数据清洗,并利用自然语言处理工具对所述新闻文档中的每篇文档进行分词、依存分析和指代消解的预处理操作,得到新闻数据集D;

将预处理后的新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;

对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典;

采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;

对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;

根据特征事件为每篇新闻文档构建其特征向量;

采用支持向量机的分类算法完成对新闻文档的分类;

所述对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典的具体步骤包括:扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系,得到二元依存关系集合ea,二元关系用于表示事件论元关系;

依次扫描上述二元依存关系集合ea,若两个事件论元关系的谓词相同,则合并为一个候选事件;

将上述二元论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件;

由所有候选事件得到每篇新闻的事件集合de,即每个文档由多个事件组成;

重复上述四步,当新闻数据集D中所有文档中的事件抽取完成后,即可得到新闻数据集D的所有事件集合DE;

扫描事件集合DE,构建事件词典

ED={event1,event2,…,eventm},eventi表示第i类事件,m表示词典大小即事件类别数,所有论元均相同的事件为同一类别;

所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括:采用组合语义的方式计算得到每个事件event的分布式表示:其中subj、pred和obj分别代表事件event的主语、谓语和宾语, 表示克罗内克积运算,·表示点乘运算;

采用余弦相似度来计算每一对事件间的相似度sim(eventi,eventj);

采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇;

聚类完成后,得到事件簇EC={ec1,ec2,…,ecx},每个簇eci均包含了语义高度相似的事件,i为该簇的簇号;

所述采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇的具体步骤包括:构建事件图G=(Vertex,Edge),其中,Vertext表示图的顶点集合,Edge表示图的边集合,初始时每个事件为一个结点且独成一簇,即Vertex=ED={event1,event2,…,eventm},而Edge={},即图中没有边存在;

依次扫描每个事件结点eventi,为每个事件结点找到不相连的且相似度最高的事件结点eventj,将它们聚在一个簇中,若存在多个相似度最高的结点,则随机选择一个;

重复上述扫描步骤,直至满足收敛条件为止,收敛条件按事件相似度阈值设置。

2.根据权利要求1所述的针对突发事件新闻的文本分类方法,其特征在于,利用现有的自然语言处理工具包,完成对新闻文档的数据清洗。

3.根据权利要求1所述的针对突发事件新闻的文本分类方法,其特征在于,所述对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件的具体步骤包括:扫描新闻数据集D的所有事件集合DE,统计每个事件簇eci的出现频率ecf;

扫描每篇新闻的事件集合de,计算每个事件簇eci的倒排文档频率idf;

计算每个事件簇eci的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇eci的特征显著性;

按事件簇的特征显著性由大到小排序,提取前K个最大特征值,构建特征事件词典FED={fed1,fed2,…,fedk},fedi为第i个特征显著的事件簇,i=1,2,…,K。

4.根据权利要求3所述的针对突发事件新闻的文本分类方法,其特征在于,所述根据特征事件为每篇新闻文档构建其特征向量的具体步骤包括:依次扫描特征事件词典FED中的每个事件簇fedi,统计该事件簇在每篇新闻d的出现频率edfi;

依次扫描特征事件词典FED中的每个事件簇fedi,计算文档在每个特征维度的特征值fdi=ecfi*idfi*edfi,即事件簇显著特征ecfi*idfi与事件簇文档特征edfi的乘积;

扫描完特征事件词典后,可得文档特征向量fd=[fd1,fd2,…,fdk]。