利索能及
我要发布
收藏
专利号: 2020112452043
申请人: 南京师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.台风事件信息聚合方法,其特征在于,主要步骤如下:步骤1、采集社交媒体中与台风事件相关的消息文本,并从中抽取台风事件信息,并转换为结构化的信息元组形式;在步骤1中,台风事件信息抽取至少包括信息要素识别和信息要素关联两个部分:

信息要素识别:明确台风事件的组成对象并构建分类体系,从社交媒体文本中抽取描述不同类型对象的名称与特征信息,其中特征信息包括时间、位置、属性和行为;属性信息分为属性项和属性值,属性项表示属性的类型,而属性值为该类型属性具有的数据或数据量;

信息要素关联:在同一篇社交媒体文本中,将特征信息依据其表征对象与名称进行关联,形成On=形式的信息元组;其中,On为对象名称,T为时间信息,L为位置信息,A为属性信息,B为行为信息;

步骤2、基于多特征相似度的对象信息聚合:依据对象名称间的相似度判断其是否属于同一对象的信息元组,将描述同一对象的信息元组进行聚合;在步骤2中,采用词向量相似度判断对象名称、属性项和行为项之间相似性,包括以下步骤:S1、将全部社交媒体文本数据进行分词;

S2、将分词结果作为训练集,利用Skip‑gram模型进行词向量训练;

S3、设定对象名称On1、On2,属性项A1、A2,行为项B1、B2,依据训练过的词向量模型分别获得On1、On2、A1、A2、B1、B2的词向量E(On1)、E(On2)、E(A1)、E(A2)、E(B1)、E(B2);

S4、利用余弦相似度分别计算E(On1)与E(On2)、E(A1)与E(A2)、E(B1)与E(B2)之间的相似度值simn、sima和simb;若simn≥εn,sima≥εa,simb≥εb,其中εn、εa、εb是阈值,则表明On1与On2、A1与A2、B1与B2是相同的对象名称、属性项和行为项,进行相应的信息聚合;

步骤3、基于时空特征的状态信息聚合:在对象信息聚合结果中筛选符合单一时间和位置条件要求的属性值和行为值,时间信息、位置信息与筛选出的属性值和行为值共同构成对象在特定时空下的状态信息聚合结果;

步骤4、基于状态的过程信息聚合:在对象信息聚合结果中筛选符合时间和位置范围要求的时空节点信息,对这些时空节点分别进行状态信息聚合,并将多个状态信息聚合结果进行排序,形成体现动态特性的过程信息聚合结果;在步骤4中,对多个状态信息聚合结果进行排序时,包括以下步骤:

A1、依据状态的时间信息,遵循顺序或倒序的方式进行排序;

A2、依据状态的位置信息,遵循尺度由大到小或由小到大的方式进行排序;

A3、依据状态的属性信息和行为信息,依据特征值的大小或等级排序,或者依据与用户聚合条件的相似度进行排序。

2.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤1中,所述台风事件信息包括对象名称、时间信息、位置信息、属性信息和行为信息。

3.根据权利要求1所述的台风事件信息聚合方法,其特征在于,在步骤2中,对于描述同一对象的不同信息元组,其中相同类型的属性项和行为项也需要进行进一步聚合。