利索能及
我要发布
收藏
专利号: 2022114501804
申请人: 深圳市宁远科技股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2024-12-10
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于模糊匹配的医疗平台智能用户实体搜索系统,其特征在于,所述系统包括:输入单元、搜索词纠错单元、实体识别单元、实体词库和结果处理单元;所述实体词库按照派生树形结构存储匹配数据,所述派生树形结构由主树和分层数据库组成,所述主树的每个节点均为按照地域分级后的一个地域层级,所述分层数据库由多个彼此包含的多层数据集合组成,每个数据集合与一个地域层级构成映射关系;所述输入单元,配置用于提供给用户输入搜索词;所述搜索词纠错单元,配置用于对搜索词基于语义纠错模型,进行智能纠错,得到纠错搜索词;所述实体识别单元,配置用于将纠错搜索词进行分解,分别得到主体词和地域词,然后分别对主体词和地域词进行模糊转换,得到主体派生词组和地域派生词组,每个主体派生词组包括主体词和基于主体词模糊转换得到的多个派生主体词,每个地域派生词组包括地域词和基于主体词模糊转换得到的多个派生地域词,然后首先基于每个地域派生词组在实体词库中的主树中进行匹配查询,得到地域派生词组匹配结果,基于地域派生词组匹配结果和映射关系,找到对应的数据集合,基于主体派生词组在数据集合中进行匹配查询,得到主体派生词组匹配结果,对主体派生词组匹配结果与主体词进行归一化相似度计算,得到归一化相似度,若归一化相似度在设定的阈值区间内,则将主体派生词组匹配结果作为检索结果;所述结果处理单元,配置用于按照主体派生词组匹配结果中的每个结果与主体词的相似度从高到低进行排序,呈现给用户。

2.根据权利要求1所述的系统,其特征在于,所述搜索词纠错单元,对搜索词基于语义纠错模型,进行智能纠错,得到纠错搜索词的过程包括:对所述搜索词进行邻接熵纠错,得到第一纠错搜索词;对所述搜索词进行中心熵纠错,得到第二纠错搜索词;分别所述第一纠错搜索词和所述第二纠错搜索词与搜索词的偏差值,将偏差值最低的纠错搜索词确定为搜索词的纠错搜索词。

3.根据权利要求2所述的系统,其特征在于,所述对所述搜索词进行邻接熵纠错,得到第一纠错搜索词的过程包括:通过预设邻接熵列表,按照从所述搜索词中的第一个字到最后一个字的顺序,计算所述搜索词的正向邻接熵;通过所述预设邻接熵列表,按照从所述搜索词中的最后一个字到第一个字的顺序,计算所述搜索词的反向邻接熵;根据得到的正向邻接熵和反向邻接熵确定邻接熵搜索词;确定所述第一纠错搜索词;所述邻接熵列表中每一行值均包括一个邻接熵值和其对应的汉字编码或ASCII码,在计算正向邻接熵时,首先按照从所述搜索词中的第一个字到最后一个字的顺序,生成每个字的汉字编码或ASCII码,然后基于汉字编码和ASCII分别进行匹配查询得到搜索词中每个字的邻接熵,通过正向邻接熵计算公式得到搜索词的正向邻接熵,同样地,在计算反向邻接熵时,首先按照从所述搜索词中的最后一个字到第一个字的顺序,生成每个字的汉字编码或ASCII码,然后基于汉字编码和ASCII分别进行匹配查询得到搜索词中每个字的邻接熵,通过反向邻接熵计算公式得到搜索词的反向邻接熵。

4.如权利要求3所述的系统,其特征在于,所述正向邻接熵计算公式使用如下公式进行表示: 所述反

向邻接熵计算公式使用如下公式进行表示:

其中:Sl是候选词W的左邻接字的集合;Sr是候选词W的

右邻接字的集合;p(Wl|W)表示Wl是候选词W的左邻接字的条件概率;p(Wr|W)表示Wr为候选词W的右邻接字的条件概率;p(Wl|W)和p(Wr|W)的计算式为:其中:N(Wl,W)表示Wl和W共同出现的次数;N(W)表示

W出现的次数;同理,N(W,Wr)表示Wr和W共同出现的次数;N(W)表示W出现的次数;

中的|为择一运算,当搜索词中字为汉字编码时,取值为 当搜索词中字为ASCII码时,取值为 N为搜索词中字的个数。

5.根据权利要求3所述的系统,其特征在于,对所述搜索词进行中心熵纠错,得到第二纠错搜索词的过程包括:通过预设中心熵列表,按照从所述邻接熵搜索词中的第一个字到最后一个字的顺序,计算所述搜索词的正向中心熵;通过所述预设中心熵列表,按照从所述邻接熵搜索词中的最后一个字到第一个字的顺序,计算所述搜索词的反向中心熵;根据所述正向中心熵和反向中心熵,确定所述第二纠错搜索词;所述中心熵列表中每一行值均包括一个中心熵值和其对应的汉字编码或ASCII码,在计算正向中心熵时,首先按照从所述搜索词中的第一个字到最后一个字的顺序,生成每个字的汉字编码或ASCII码,然后基于汉字编码和ASCII分别进行匹配查询得到搜索词中每个字的中心熵,通过正向中心熵计算公式得到搜索词的正向中心熵,同样地,在计算反向中心熵时,首先按照从所述搜索词中的最后一个字到第一个字的顺序,生成每个字的汉字编码或ASCII码,然后基于汉字编码和ASCII分别进行匹配查询得到搜索词中每个字的中心熵,通过反向中心熵计算公式得到搜索词的反向中心熵。

6.根据权利要求5所述的系统,其特征在于,所述正向中心熵计算公式使用如下公式进行表示:

述反向中心熵计算公式使用如下公式进行表示:

中:C是候选词W的中心邻接字的集合;p(Wl|W)表示Wl是候选词W的左邻接字的条件概率;p(Wr|W)表示Wr为候选词W的右邻接字的条件概率;p(Wl|W)和p(Wr|W)的计算式为:其中:N(Wl,W)表示Wl和W共同出现的次

数;N(W)表示W出现的次数;同理,N(W,Wr)表示Wr和W共同出现的次数;N(W)表示W出现的次数; 中的|为择一运算,当搜索词中字为汉字编码时,取值为 当搜索词中字为ASCII码时,取值为 N为搜索词中字的个数, 为中心极限,Xi为搜索词中每个字的汉字编码值或ASCII码值,μ为中心极限的期望值,n为方差。

7.根据权利要求6所述的系统,其特征在于,所述实体识别单元分别对主体词和地域词进行模糊转换,得到主体派生词组和地域派生词组的过程包括:将地域词中按照第一个字到最后一个字的顺序,依次保留一个字,将其他字用通配符进行表示,从实体词库中分别进行匹配检索,将匹配检索的结果和地域词的集合作为模糊转换得到的地域派生词组;将主体词转换为对应的拼音,然后基于拼音,生成拼音一致的其他词组,将生成的其他词组和主体词作为模糊转换得到的主体派生词组。

8.根据权利要求1所述的系统,其特征在于,所述主体派生词组和地域派生词组生成后,还将对主体派生词组中的派生主体词或地域派生词组中的派生地域词再次进行模糊转换,按照设定的次数循环执行后,将得到多级的主体派生词组和多级的地域派生词组;所述多级的主体派生词组和多级的地域派生词组的级数等于循环次数加1。

9.根据权利要求8所述的系统,其特征在于,所述多级的主体派生词组和多级的地域派生词组在进行匹配查询时,仅需要对生成的最后一级主体派生词或地域派生词进行匹配查询。

10.根据权利要求7所述的系统,其特征在于,所述实体识别单元对主体派生词组匹配结果与主体词进行归一化相似度计算,得到归一化相似度的过程包括:计算主体派生词组匹配结果中每个词语主体词的汉字编码或ASCII码的差值,然后进行算术平均运算,得到最后的归一化相似度。