1.一种勘察报告文本关键信息提取系统,其特征在于,包括依次电信号连接的文本输入模块(1)、文本预处理模块(2)、TF‑IDF计算模块(3)、文本信息改进模块(4)、关键词输出模块(5)以及查找定位关键信息模块(6)。
2.根据权利要求1所述的一种勘察报告文本关键信息提取系统,其特征在于,所述文本输入模块(1)用于将勘察报告文本中的文字进行提取,并以.txt格式进行保存,然后去除图表、目录、公式、格式字符,同时将勘察报告以序号、标题、内容格式进行存储,并以.csv文档保存;所述文本预处理模块(2)用于对经文本输入模块(1)的文本进行预处理降噪;所述TF‑IDF计算模块(3)用于对经文本预处理模块(2)所接收的信息通过TF‑IDF算法计算,得到初步的候选关键词;所述文本信息改进模块(4)用于对经TF‑IDF计算模块所得到的候选关键词进一步进行优化,得到优化后的关键词;所述关键词输出模块(5)用于对文本信息改进模块(4)得到的关键词取前X个进行输出;所述查找定位关键信息模块(6)用于对经关键词输出模块(5)所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。
3.一种勘察报告文本关键信息提取方法,其特征在于,采用权利要求1所述的一种勘察报告文本关键信息提取系统,具体按照如下步骤实施:步骤1,采用文本输入模块(1)进行文本输入;
步骤2,采用文本预处理模块(2)对输入的文本进行预处理降噪,得到候选词;
步骤3,使用TF‑IDF计算模块(3)对经过预处理的文本进行计算,得到TF‑IDF值排名前N的关键词作为候选关键词;
步骤4,采用文本信息改进模块(4)对TF‑IDF计算模块(3)计算得到的候选关键词进行优化,获得候选关键词新的TF‑IDF值;
步骤5,采用关键词输出模块(5)输出关键词;
步骤6,通过查找定位关键信息模块(6)查找定位关键信息。
4.根据权利要求3所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤
1具体为:
步骤1.1,将需要处理的勘察报告中的文字进行抓取并以.txt格式进行保存;
步骤1.2,去除经步骤1保存的.txt格式文本中的图表、目录、公式、格式字符,然后将勘察报告以序号、标题、内容的形式以.scv文档保存。
5.根据权利要求4所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤
2具体为:
步骤2.1、利用Python语言中的Jieba分词库进行勘察报告分词,根据勘察报告特点人为编写自定义词典,根据Jieba分词支持自定义分词的特点,通过Python语言嵌套进自定义词典进行辅助分词;
所述自定义词典包括一下词:详细勘察、单栋高层建筑、勘探点、地基均匀性、密集、高层建筑群、适当减少、每栋建筑物、至少应有、控制性勘探点、平面布设、高层建筑、平面形状、荷载的分布情况、层数、荷载、体型变异较大、布设、勘察等级;
步骤2.2、对经步骤2.1分词的勘察报告的每个词进行词性标注,词性为:名词、动词、介词、形容词、副词、标题词、自定义词典和专有名词和字符串,所述专有名词指设备名称、地名、实验名称;所述标题词为文本标题位置的词汇;
步骤2.3、选择哈尔滨工业大学停用词库,将勘察报告中的词汇与停用词库的词汇进行对比,剔除勘察报告中的停用词汇。
6.根据权利要求5所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤
3具体为:
步骤3.1、将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串,将其他词性的词汇进行剔除,得到的词作为候选词,根据公式(1)计算所有候选词的词频TF;
其中,TF表示当前词的词频,n表示当前词在勘察报告中的数量,∑n表示勘察报告中所有词的数量;
则,将当前词的词频矩阵tf为:[p][q][TF],表示第p个勘察报告文档中第q个词的词频值为TF;
步骤3.2、根据公式(2)计算所有候选词的逆文档频率IDF:其中,IDF表示当前词逆文档频率,C表示语料库中勘察报告的总数量,df表示包含当前词的文档数量占所有文档数量的频率;
则,将当前词的逆文档频率矩阵idf为:[p][q][IDF],表示第p个勘察报告文档中第q个词的逆文档频率值为IDF;
步骤3.3、计算出每个词的TF‑IDF矩阵tfidf表示为:tfidf=tf×idf
然后将矩阵tfidf除以矩阵tfidf的L2范数来进行矩阵归一化如公式(3),得出TF‑IDF值,然后取TF‑IDF值排名前N的候选词作为候选关键词:
7.根据权利要求6所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤
4具体为:
步骤4.1、通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重:其中,weighttitle(wi)表示标题词wi的权重, 表示勘察报告j内包含词的总数;
步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重:其中,weightlen(wi)表示词wi的长度权重,len(wi)表示词wi的长度,maxlen表示当前勘察报告中最长词的长度;
步骤4.3、给自定义词典、字符串、名词、动词以及专有名词赋予不同权重weightchar(wi),其中,当词性为自定义词典时weightchar(wi)=1.2,当词性为专有名词时weightchar(wi)=1.0,当词性为字符串时weightchar(wi)=0.8,当词性为名词时weightchar(wi)=0.8,当词性为动词时weightchar(wi)=0.6;
步骤4.4、通过公式(6)对关键词的TF‑IDF值进行加权计算得出新的TF‑IDF值Y:Y=tfidf*(1.0*weighttitle(wi)+1.0*weightlen(wi)+1.3*weightchar(wi)) (6)其中,Y表示当前词的最终TF‑IDF值,如果当前词不是标题词,那么weighttitle(wi)=0,如果是标题词按照公式(4)计算weighttitle(wi)。
8.根据权利要求7所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤
5具体为:对经步骤4计算的所有词的最终TF‑IDF值Y进行由大到小排序,取前X个进行输出,得到关键词。
9.根据权利要求8所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤
6具体为:通过编写Python语言程序查找定位出勘察报告文本中相应的关键信息。