利索能及
我要发布
收藏
专利号: 2022106494334
申请人: 南京英诺森软件科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种特征类别确定方法,其特征在于,包括:

获取待处理主数据,对所述待处理主数据进行分词处理,得到与所述待处理主数据相对应的第一待处理关键词;

基于预先建立的条件随机场模型,对所述待处理主数据进行处理,得到与所述待处理主数据相对应的第二待处理关键词;

根据所述第一待处理关键词和所述第二待处理关键词,确定待使用关键词;

根据所述待使用关键词以及历史长文本数据,确定各待使用关键词的词频逆文本频率,并根据所述词频逆文本频率,确定与所述待处理主数据相对应的目标关键词;

根据目标关键词以及各待匹配关键词,确定所述目标关键词的特征类别。

2.根据权利要求1所述的方法,其特征在于,在所述得到与所述待处理主数据相对应的第一待处理关键词之后,还包括:根据所述待处理主数据的第一待处理关键词,确定与各第一待处理关键词相对应的邻居依赖程度,并根据所述邻居依赖程度,确定待剔除关键词,将所述待剔除关键词从所述第一待处理关键词中剔除。

3.根据权利要求2所述的方法,其特征在于,所述根据所述待处理主数据的第一待处理关键词,确定与各第一待处理关键词相对应的邻居依赖程度,并根据所述邻居依赖程度,确定待剔除关键词,包括:针对每个第一待处理关键词,确定与所述第一待处理关键词相对应的左字符串依赖程度以及右字符串依赖程度,根据所述左字符串依赖程度以及所述右字符串依赖程度,确定所述第一待处理关键词的字符串概率;

若所述字符串概率小于预设字符串阈值,则与将所述字符串概率对应的第一待处理关键词作为待剔除关键词。

4.根据权利要求1所述的方法,其特征在于,在所述根据所述待使用关键词以及历史长文本数据,确定各待使用关键词的词频逆文本频率之前,还包括:根据所述待处理主数据的目标类别,从预先建立的历史主数据集中确定与所述目标类别相对应的历史长文本数据。

5.根据权利要求1所述的方法,其特征在于,所述根据目标关键词以及各待匹配关键词,确定所述目标关键词的特征类别,包括:根据目标关键词以及各待匹配关键词,确定词向量相似度,并根据所述词向量相似度,确定与所述目标关键词相匹配的第一候选关键词;

若所述第一候选关键词的数量为一个,则将所述第一候选关键词的特征类别作为所述目标关键词的特征类别;

若所述第一候选关键词的数量为至少两个,则根据所述第一候选关键词所属的领域以及所述目标关键词所属的领域,确定第二候选关键词,根据所述第二候选关键词,确定所述目标关键词的特征类别;

若不存在所述第一候选关键词,则根据与所述目标关键词相对应的待处理主数据,以及历史主数据集中的各历史长文本数据,确定集合相似度,并根据所述集合相似度确定所述目标关键词的特征类别。

6.根据权利要求5所述的方法,其特征在于,所述根据所述第一候选关键词所属的领域以及所述目标关键词所属的领域,确定第二候选关键词,包括:针对每一个第一候选关键词,基于预先建立的关键词图谱,确定所述第一候选关键词所属的领域与所述目标关键词所属的领域是否相同;若相同,则保留所述第一候选关键词,若不同,则剔除所述第一候选关键词;

将处理后的第一候选关键词作为第二候选关键词。

7.根据权利要求6所述的方法,其特征在于,在所述将处理后的第一候选关键词作为第二候选关键词之后,还包括:若不存在所述第二候选关键词,则根据与所述目标关键词相对应的待处理主数据,以及所述历史主数据集中的各历史长文本数据,确定集合相似度,并根据所述集合相似度确定所述目标关键词的特征类别。

8.一种特征类别确定装置,其特征在于,包括:

第一待处理关键词确定模块,用于获取待处理主数据,对所述待处理主数据进行分词处理,得到与所述待处理主数据相对应的第一待处理关键词;

第二待处理关键词确定模块,用于基于预先建立的条件随机场模型,对所述待处理主数据进行处理,得到与所述待处理主数据相对应的第二待处理关键词;

待使用关键词确定模块,用于根据所述第一待处理关键词和所述第二待处理关键词,确定待使用关键词;

目标关键词确定模块,用于根据所述待使用关键词以及历史长文本数据,确定各待使用关键词的词频逆文本频率,并根据所述词频逆文本频率,确定与所述待处理主数据相对应的目标关键词;

特征类别确定模块,用于根据目标关键词以及各待匹配关键词,确定所述目标关键词的特征类别。

9.一种电子设备,其特征在于,所述电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑7中任一项所述的特征类别确定方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1‑7中任一项所述的特征类别确定方法。