1.一种表格提取方法,其特征在于,所述表格提取方法包括:获取查询请求以及待提取的word文档;
根据所述查询请求获得对应的查询关键词;
识别所述word文档,获得word文档中各表格对应的表格关键词;
将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取所述相似度最高的预设个数的表格关键词对应的表格。
2.如权利要求1所述的表格提取方法,其特征在于,所述识别所述word文档,获得word文档中各表格对应的表格关键词的步骤包括:识别word文档中的表格,获得各表格的内部关键词;
解析word文档的文档类型;
若所述文档类型是排版格式类型,则根据所述文档类型获取与各表格对应的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
若所述文档类型不是排版格式类型,则获取各表格之前和之后的预设段落的段落文本,并对所述段落文本进行关键词提取获得各表格的外部关键词;
将各表格的内部关键词和外部关键词一起组成各表格对应的表格关键词。
3.如权利要求2所述的表格提取方法,其特征在于,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,包括:判断各表格对应的外部关键词中是否存在表格的标题;
若存在表格的标题,则将表格的标题与查询关键词进行对比,判断表格的标题与查询关键词是否一致;
若表格的标题与查询关键词一致,则获取第一预设相似度作为查询关键词与表格对应的表格关键词的相似度。
4.如权利要求3所述的表格提取方法,其特征在于,所述将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度的步骤,还包括:若不存在表格的标题或表格的标题与查询关键词不一致,则获得表格对应的表格关键词中的内部关键词,并将内部关键词与查询关键词进行对比,获得内部关键词与查询关键词的第一匹配度;
获取第一匹配度大于预设匹配度的表格的数量,并判断所述数量是否大于或等于所述预设个数;
若所述数量小于所述预设个数,则将所述第一匹配度作为查询关键词与表格对应的表格关键词的相似度;
若所述数量大于或等于所述预设个数,则获得第一匹配度大于预设匹配度的表格对应的表格关键词中的外部关键词,并获取第二预设相似度作为查询关键词与第一匹配度小于预设匹配度的表格对应的表格关键词的相似度;
将第一匹配度大于预设匹配度的表格对应的外部关键词与查询关键词进行对比,获得外部关键词与查询关键词的第二匹配度,且将所述第二匹配度作为查询关键词与表格对应的表格关键词的相似度。
5.如权利要求1-4中任一项所述的表格提取方法,其特征在于,所述根据所述查询请求获得对应的查询关键词的步骤包括:若所述查询请求为文本信息,则将所述文本信息作为检索信息;
若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息;
通过所述检索信息查询获得对应的查询关键词。
6.如权利要求5所述的表格提取方法,其特征在于,所述若所述查询请求为图片,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息的步骤包括:若所述查询请求为图片,则将所述图片灰度化,并将灰度化的图片二值化处理得到二值化图像;
将所述二值化图像进行横向、纵向的膨胀、腐蚀操作,得到所述图片中的横线位置和竖线位置;
基于所述横线位置和所述竖线位置得到所述图片中的横线竖线交叉点位置;
通过所述图片中的横线竖线交叉点位置判断所述图片中是否有表格;
若所述图片中具有表格,则提取所述图片中的表格表头作为检索信息。
若所述图片中不具有表格,则基于OCR技术将所述图片转为文字,并将所述文字作为检索信息。
7.如权利要求6所述的表格提取方法,其特征在于,所述通过所述检索信息查询获得对应的查询关键词的步骤包括:对所述检索信息进行词性分析,将所述检索信息中的名词作为查询关键词;或者,将所述检索信息在预设的关键词库中进行匹配查询,并将检索信息中的与预设的关键词库相匹配的字符提取为关键词;或者,对所述检索信息进行同义词检索,将检索到的同义词与所述检索信息一起组成查询关键词;或者,若检索信息为表格表头,则通过所述检索信息查询对应的预设通用表头集合,并将所述预设通用表头集合作为查询关键词。
8.一种表格提取装置,其特征在于,所述表格提取装置包括:获取装置,所述获取装置用于获取查询请求以及待提取的word文档;
获得装置,所述获得装置用于根据所述查询请求获得对应的查询关键词;
识别装置,所述识别装置用于识别所述word文档,获得word文档中各表格对应的表格关键词;
匹配装置,所述匹配装置用于将查询关键词与各表格对应的表格关键词分别进行相似度匹配,获得查询关键词与各表格对应的表格关键词的相似度;
提取装置,所述提取装置用于提取所述相似度最高的预设个数的表格关键词对应的表格。
9.一种终端,其特征在于,包括处理器、存储器、以及存储在所述存储器上的可被所述处理器执行的表格提取程序,其中,所述表格提取程序被所述处理器执行时,实现如权利要求1至7中任一项所述的表格提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有表格提取程序,其中,所述表格提取程序被处理器执行时,实现如权利要求1至7中任一项所述的表格提取方法的步骤。