利索能及
我要发布
收藏
专利号: 2017109945077
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种目标文档获取方法,应用于应用服务器,其特征在于,所述方法包括步骤:获取至少一个文档及与所述文档对应的文档信息,并对所述文档信息进行预处理;

获取检索关键字;

建立基于字符删除表,同义近义词表及规格参数表的文档选择模型;

将预处理后的文档信息输入所述文档选择模型,所述文档选择模型根据所述检索关键字对所述文档信息进行处理;

根据预设的关键词词频及密度算法计算所述文档选择模型输出的所述文档中所述检索关键词的词频及密度分数,并根据所述词频及密度分数对所述文档进行相关度排序;及根据预设相关度阈值,输出所述文档中所述相关度大于所述预设相关度阈值的目标文档。

2.如权利要求1所述的目标文档获取方法,其特征在于,所述步骤“获取至少一个文档及与所述文档对应的文档信息,并对所述文档信息进行预处理”之预处理还包括以下步骤:对所述文档进行分词,以获得至少一个词语;

对所述词语进行词性分析以获得所述词语的第一信息;及

将所述词语为预定词性或者所述第一信息为预设第一信息的词语作为候选词语。

3.如权利要求1所述的目标文档获取方法,其特征在于,所述字符删除表中包括与所述候选词语中明显与检索关键字不相符的字符;述同义近义词表包括与检索关键词对应的同义词、近义词;所述规格参数表中包括对应检索关键词的多种参数。

4.如权利要求3所述的目标文档获取方法,其特征在于,所述目标文档选择模型建立的步骤包括:对所述检索关键词进行分析,获得所述检索关键词的技术领域;

在所述技术领域,根据分析结果设置字符删除表;

在所述技术领域,从数据库中获得所述关键词的同义词、近义词并建立同义近义词表;

在所述技术领域,对所述关键词分析后选取所述关键词的规格参数建立所述规格参数表;及对所述字符删除表、所述同义近义词表及所述规格参数表进行动态更新。

5.如权利要求1所述的目标文档获取方法,其特征在于,所述步骤“将预处理后的文档信息输入所述文档选择模型,所述文档选择模型根据所述检索关键字对所述文档信息进行处理”中,所述处理步骤包括:调用所述字符删除表对所述文档信息中与所述检索关键词相比错误、多余、明显相关的字符、词语进行删除;

调用所述同义近义词表对所述检索关键词进行替换,对替换后的所述检索关键词进行检索,将与所述检索关键词及其同义近义词匹配的文档信息保存;及调用所述规格参数表对所述检索关键词及其同义近义词对应的规格参数进行比对分析,将与规格参数表中的数据匹配的文档信息保存。

6.如权利要求5所述的目标文档获取方法,其特征在于,所述步骤“将预处理后的文档信息输入所述文档选择模型,所述文档选择模型根据所述检索关键字对所述文档信息进行处理”中,所述处理步骤还包括:建立括号识别模型,对括号的不同使用方式进行识别以获取精确的分类数据。

7.如权利要求1所述的目标文档获取方法,其特征在于,所述关键词词频及密度分数M为:M=∑log(文档总数/(包含所述检索关键词的文档数目+1))*exp(count(所述检索关键词),S),其中,count(所述检索关键词)为所述检索关键词在检索结果中击中的次数,log(文档总数/(包含所述检索关键词的文档数目+1))为所述检索关键词在查询结果中的重要程度,S为预设参数。

8.如权利要求1所述的目标文档获取方法,其特征在于,当所述目标文档获取方法用于获取反复发作低血糖单据时,所述步骤“根据预设相关度阈值,输出所述文档中所述相关度大于所述预设相关度阈值的目标文档”之后,还包括如下步骤:对筛选出的所述目标文档进行分析,获得患者的身份信息;

根据患者的所述身份信息从数据库中获得该患者的历史诊疗数据;

从所述历史诊疗数据中获得该患者的葡萄糖使用、疾病检测及治疗方式等数据;及根据以上数据获得该患者所有反复发作低血糖单据。

9.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的目标文档获取系统,所述目标文档获取系统被所述处理器执行时实现如权利要求1-8中任一项所述的目标文档获取方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有目标文档获取系统,所述目标文档获取系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求

1-8中任一项所述的目标文档获取方法的步骤。