利索能及
我要发布
收藏
专利号: 2020106171964
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种实体标签的确定方法,包括:

获取与目标文档的文档类型对应的实体标签库,其中,所述实体标签库中包括与所述文档类型对应的多个实体标签;

将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签;

获取所述目标文档的属性特征,并根据所述目标文档获取与每个所述候选实体标签对应的标签特征,其中,所述属性特征包括标题特征、内容特征,所述标签特征包括对应的候选实体标签在目标文档标题中出现的频次、出现的位置;

获取候选实体标签库,其中,所述候选实体标签库中包含与多种文档类型对应的多个标准实体标签;

对所述多个标准实体标签切词处理,获取标准标签分词;

根据所述多个标准实体标签对应的标准标签分词构建第三倒排索引表;

获取与所述文档类型对应的多个第一训练文档,并对所述多个第一训练文档中的每个第一训练文档切词处理获取训练文档切词;

将所述每个第一训练文档的训练文档切词与所述第三倒排索引表中的节点匹配,判断是否包含与所述训练文档分词对应的第三节点路径;

若包含所述第三节点路径,则确定所述第三节点路径对应的标准实体标签为对应第一训练文档的实体标签;

获取与所述文档类型对应的第二训练文档,和预先标注的所述第二训练文档的实体标签;

根据所述第一训练文档及其对应的实体标签,和所述第二训练文档及其对应的实体标签训练生成标签识别模型;

将所述属性特征和所述标签特征输入预先训练的标签识别模型,获取与每个所述候选实体标签对应的第一置信度;

根据所述第一置信度从所述多个候选实体标签中,确定所述目标文档的目标实体标签。

2.如权利要求1所述的方法,在所述获取与目标文档的文档类型对应的实体标签库之前,还包括:获取与所述文档类型对应的文档搜索日志、专业文档、知识图谱和关联垂类文档;

提取所述文档搜索日志中的搜索词,对所述搜索词切词处理获取搜索分词,并根据所述搜索分词获取所述文档类型对应的第一参考实体标签;

提取所述专业文档中的多个关键词,根据预设算法计算所述多个关键词中的每个关键词在所述专业文档的重要值;

根据所述重要值在所述多个关键词中确定预设个数的目标关键词为第二参考实体标签;

识别所述知识图谱和所述关联垂类文档中的专有名词,并根据所述专有名词确定第三参考实体标签;

根据所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签确定所述实体标签库。

3.如权利要求2所述的方法,其中,所述根据所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签确定所述实体标签库,包括:将所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签中的每个参考实体标签,输入预先训练的神经网络模型,获取与所述每个参考实体标签对应的第二置信度;

根据所述第二置信度大于预设置信值的参考实体标签,确定所述实体标签库。

4.如权利要求2所述的方法,其中,所述根据所述搜索分词获取所述文档类型对应的第一参考实体标签,包括:根据文档搜索日志的搜索分词构建所述搜索词的第一倒排索引表;

确定所述第一倒排索引表中的节点优先级大于预设等级的目标节点;

确定所述目标节点在所述第一倒排索引表中的第一节点路径,根据所述第一节点路径覆盖的搜索分词确定所述第一参考实体标签。

5.如权利要求1所述的方法,其中,所述将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签,包括:对所述目标文档的文档标题和文档内容切词处理,获取多个文档分词;

对所述实体标签切词处理获取标签分词,并根据所述标签分词构建与所述实体标签库对应的第二倒排索引表;

将多个文档分词中的每个文档分词与第二倒排索引表中的节点匹配,判断是否包含与每个文档分词对应的第二节点路径;

若包含所述第二节点路径,则确定所述第二节点路径对应的实体标签为候选实体标签。

6.如权利要求5所述的方法,在所述确定所述第二节点路径对应的实体标签为所述候选实体标签之前,还包括:统计所述第二节点路径对应的实体标签在所述目标文档中的出现次数;

确定所述出现次数大于预设次数阈值。

7.如权利要求1所述的方法,其中,所述将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签,包括:计算所述目标文档的文档标题的标题语义向量;

计算每个所述实体标签的标签语义向量;

计算所述标题语义向量和每个所述实体标签的标签语义向量的语义相似度,确定所述语义相似度大于预设相似阈值的实体标签为候选实体标签。

8.一种实体标签的确定装置,包括:

第一获取模块,用于获取与目标文档的文档类型对应的实体标签库,其中,所述实体标签库中包括与所述文档类型对应的多个实体标签;

第二获取模块,用于将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签;

第三获取模块,用于获取所述目标文档的属性特征,并根据所述目标文档获取与每个所述候选实体标签对应的标签特征,其中,所述属性特征包括目标文档的标题特征、内容特征,所述标签特征包括对应的候选实体标签在目标文档标题中出现的频次、出现的位置;

第四获取模块,用于将所述属性特征和所述标签特征输入预先训练的标签识别模型,获取与每个所述候选实体标签对应的第一置信度;

第一确定模块,用于根据所述第一置信度从所述多个候选实体标签中,确定所述目标文档的目标实体标签,还包括:第七获取模块,用于获取候选实体标签库,其中,所述候选实体标签库中包含与多种文档类型对应的多个标准实体标签;

第八获取模块,用于对所述多个标准实体标签切词处理,获取标准标签分词;

构建模块,用于根据所述多个标准实体标签对应的标准标签分词构建第三倒排索引表;

第九获取模块,用于获取与所述文档类型对应的多个第一训练文档,并对所述多个第一训练文档中的每个第一训练文档切词处理获取训练文档切词;

判读模块,用于将所述每个第一训练文档的训练文档切词与所述第三倒排索引表中的节点匹配,判断是否包含与所述训练文档分词对应的第三节点路径;

第五确定模块,用于在包含所述第三节点路径时,确定所述第三节点路径对应的标准实体标签为对应第一训练文档的实体标签;

第十获取模块,用于获取与所述文档类型对应的第二训练文档,和预先标注的所述第二训练文档的实体标签;

训练模块,用于根据所述第一训练文档及其对应的实体标签,和所述第二训练文档及其对应的实体标签训练生成所述标签识别模型。

9.如权利要求8所述的装置,还包括:

第五获取模块,用于获取与所述文档类型对应的文档搜索日志、专业文档、知识图谱和关联垂类文档;

第六获取模块,用于提取所述文档搜索日志中的搜索词,对所述搜索词切词处理获取搜索分词,并根据所述搜索分词获取所述文档类型对应的第一参考实体标签;

计算模块,用于提取所述专业文档中的多个关键词,根据预设算法计算所述多个关键词中的每个关键词在所述专业文档的主题的重要值;

第二确定模块,用于根据所述重要值在所述多个关键词中确定预设个数的目标关键词为第二参考实体标签;

第三确定模块,用于识别所述知识图谱和所述关联垂类文档中的专有名词,并根据所述专有名词确定第三参考实体标签;

第四确定模块,用于根据所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签确定所述实体标签库。

10.如权利要求8所述的装置,其中,所述第二获取模块,具体用于:对所述目标文档的文档标题和文档内容切词处理,获取多个文档分词;

对所述实体标签切词处理获取标签分词,并根据所述标签分词构建与所述实体标签库对应的第二倒排索引表;

将多个文档分词中的每个文档分词与第二倒排索引表中的节点匹配,判断是否包含与每个文档分词对应的第二节点路径;

若包含所述第二节点路径,则确定所述第二节点路径对应的实体标签为候选实体标签。

11.如权利要求8所述的装置,其中,所述第二获取模块,具体用于:计算所述目标文档的文档标题的标题语义向量;

计算每个所述实体标签的标签语义向量;

计算所述标题语义向量和每个所述实体标签的标签语义向量的语义相似度,确定所述语义相似度大于预设相似阈值的实体标签为候选实体标签。

12.一种电子设备,其特征在于,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑7中任一项所述的实体标签的确定方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1‑7中任一项所述的实体标签的确定方法。