1.一种情报关键词提取方法,其特征在于,包括以下步骤:S1、获取待处理情报文本,并将待处理情报文本均匀划分为若干个情报文本块;
S2、计算各个情报文本块的语义适应度;
S3、提取所有情报文本块的关键词,生成关键词序列;
S4、利用各个情报文本块的语义适应度,对关键词序列进行更新,确定待处理情报文本的所有关键词;
所述S2包括以下子步骤:
S21、提取情报文本块中各个单词的词频,生成词频集合;
S22、构建语义筛选条件,将词频满足语义筛选条件的单词作为语义单词集合的子集;
S23、提取语义单词集合中各个单词的逆文本频率,生成语义特征矩阵;
S24、对语义特征矩阵进行奇异值分解,将语义特征矩阵的奇异值作为情报文本块的语义适应度;
所述S4包括以下子步骤:
S41、从关键词序列中随机选择一个关键词作为第一优化关键词,将关键词序列中词频最大且与第一优化关键词不同的关键词作为第二优化关键词;
S42、判断第一优化关键词和第二优化关键词是否属于同一情报文本块,若是则进入S43,否则进入S44;
S43、将第一优化关键词所属情报文本块的语义适应度作为优化语义适应度,并进入S45;
S44、将第一优化关键词所属情报文本块的语义适应度与第二优化关键词所属情报文本块的语义适应度之间的均值作为优化语义适应度,并进入S45;
S45、根据优化语义适应度以及关键词序列中词频最小的关键词所属情报文本块的语义适应度,确定最佳语义适应度;
S46、判断关键词序列中是否存在词频小于最佳语义适应度的关键词,若是则进入S47,否则不对关键词序列进行更新;
S47、计算词频小于最佳语义适应度的各个关键词在待处理情报文本中的语义置信度;
S48、根据词频小于最佳语义适应度的各个关键词在待处理情报文本中的语义置信度,对关键词集合进行更新。
2.根据权利要求1所述的情报关键词提取方法,其特征在于,所述S22中,语义筛选条件的表达式为:;
式中, 表示词频集合的最大值, 表示词频集合的最小值, 表示情报文本块中第 个单词的词频, 表示词频集合中所有词频的标准差,表示情报文本块的文本长度。
3.根据权利要求1所述的情报关键词提取方法,其特征在于,所述S23中,语义特征矩阵的表达式为:;
式中, 表示语义单词集合中第一个单词在所属情报文本块的逆文本频率, 表示语义单词集合中第二个单词在所属情报文本块的逆文本频率, 表示语义单词集合中第个单词在所属情报文本块的逆文本频率, 表示语义单词集合中第 个单词在所属情报文本块的逆文本频率, 表示语义单词集合的单词个数, 表示转置。
4.根据权利要求1所述的情报关键词提取方法,其特征在于,所述S3中,利用TextRank算法提取各个情报文本块的关键词,生成关键词序列。
5.根据权利要求1所述的情报关键词提取方法,其特征在于,所述S45中,最佳语义适应度 的计算公式为:;
式中, 表示第一优化关键词所属情报文本块的语义适应度, 表示第二优化关键词所属情报文本块的语义适应度, 表示优化语义适应度, 表示情报文本块的个数, 表示关键词序列中词频最小的关键词所属情报文本块的语义适应度, 表示所有情报文本块的最小语义适应度, 表示指数函数, 表示最大值函数。
6.根据权利要求1所述的情报关键词提取方法,其特征在于,所述S47中,词频小于最佳语义适应度的关键词在待处理情报文本中的语义置信度 的计算公式为:;
式中, 表示待处理情报文本的文本长度, 表示情报文本块的个数, 表示第 个情报文本块的语义适应度, 表示关键词在待处理文本中的词频。
7.根据权利要求1所述的情报关键词提取方法,其特征在于,所述S48中,对关键词集合进行更新的具体方法为:将语义置信度小于0.5的关键词从关键词集合中剔除,完成更新。