1.一种公共卫生事件预警知识库的构建方法,包括以下步骤:S100构建初始领域知识库;
S200文本分类;
S300词聚类并扩展知识库。
2.根据权利要求1所述的构建方法,其中步骤S100构建初始领域知识库包括:S110从网络媒体中搜集关于公共卫生事件的事件文本,分析公共卫生事件生命周期所涉及的各个领域;
S120通过阅读文献人工选择代表性领域术语作为属性,构建事件框架;
S130根据文献中的知识,填充初始领域知识库中的属性和值。
3.根据权利要求1所述的构建方法,其中步骤S200文本分类进一步包括:S210对事件文本进行预处理;
S220依据TF-IDF公式计算各段落中词的权重;
S230对以段落为单位的文本进行关键词标记,取出关键词的TF-IDF权值;
S240以关键词建立空间向量模型,将段落文本映射到空间中。
4.根据权利要求2所述的构建方法,其中步骤S220依据TF-IDF公式计算各段落中词的权重进一步包括:S221按照文本中的自然段落进行分段,并给定唯一段落编号,建立索引;
S222使用语义分析器对每个段落文本进行分词、词性标注、语法结构分析,整理出段落号与词构成的序偶<段落号,词>;
S223按照段落号对序偶进行排序、分组,作为任务组发布到Reducer;
S224统计各个段落中出现词的词频,存储统计结果,建立索引与段落相对应;
S225使用数据库操作技术SQL命令整理得到词与段落号构成的序偶<词,段落号>;
S226按照词进行序偶排序与任务分组,发布到Reducer;
S227计算倒排文档频度,并存储;
S228再次利用数据库操作技术SQL命令,求解各个段落中各个词的TF-IDF权重值,并输出结果。
5.根据权利要求1所述的构建方法,其中步骤S300词聚类并扩展知识库进一步包括:S310解析语法分析的结果;
S320根据段落中具有的句法关系的词构成的无向连接图,得出无向连接图的邻接矩阵;
S330求邻接矩阵的广义逆矩阵;
S340计算段落中任意两个词之间的距离;
S350重复S320-S340,直至该类中所有的段落都得到处理;
S360根据单一段落中词与词之间的距离计算该文本集中任意两个词的距离;
S370将所有段落的无向连接图合并,得到整个文本集的无向连接图,进而得到其邻接矩阵,通过邻接矩阵得到无向连接图的度矩阵;
S380分析度矩阵,研究无向连接图中每个节点的度,寻找聚类中心;
S390根据获得的词的距离和获得的聚类中心进行聚类。
6.根据权利要求4所述的构建方法,其中步骤S340计算段落中任意两个词之间的距离rjk具体通过下式得到:其中j、k代表任意两个词,L+为图L的伪逆矩阵,拉普拉斯图L=A-D,其中A是图的邻接矩阵,D是图的度矩阵。
7.根据权利要求4所述的构建方法,其中步骤S360根据单一段落中词与词之间的距离计算该文本集中任意两个词的距离RAB具体通过下式得到:其中,A、B代表任意两个词,N为段落数,riAB为段落i中从A到B的距离,当在段落i中A、B两个词没有联系时,其距离为无穷大。
8.根据权利要求4所述的构建方法,步骤S380寻找聚类中心进一步包括:S381将所有人为标注的种子记为聚类中心候选点,建立矩阵存储他们之间的相互聚类距离DIS;
S382获得所有聚类中心候选点间最小距离dis,构成集合Setdis;
S383:计算Setdis中数据的均值作为距离阈值T,计算公式如下:S384:调用聚类算法进行聚类,判断聚类算法是否满足终止条件,若满足则结束,若不满足则进入步骤S385;
S385:取待聚结点中度最高的结点添加到候选点中,重复步骤S381-S384。
9.根据权利要求7所述的构建方法,其中步骤S384中判断聚类算法是否满足终止条件为:当可划分到类簇中的结点数量NUMC占总结点数量NUMS的比例大于等于1-αunclassed,且重叠区域中的结点数量NUMO占总结点数量的比例小于等于αlap时,认为聚类达到最优解,聚类过程终止,其中αunclassed和αlap为终止条件参数。
10.根据权利要求8所述的构建方法,步骤S390根据获得的词的距离和获得的聚类中心进行聚类的聚类算法进一步包括:S391执行寻找聚类中心算法的S381–S383;
S392遍历待聚结点x与聚类中心之间的距离,使用排序算法取最小值d’x与次小值d”x;
S393对所有待聚结点重复S392工作;
S394对所有待聚结点,进行如下划分类簇处理:d’x>T时,该待聚结点无法划归到已发现的类中,d’x≤T且d”x>T时,该结点可以进入C1,NUMC=NUMC+1,但属于重叠区域,d’x≤T且d”x≤T时,该结点可以进入C1,NUMC=NUMC+1,且该结点是重叠区域中的结点,NUMO=NUMO+1;
S395执行步骤S384,可终止时终止聚类过程,不可终止时进入聚类中心寻找算法S385。