利索能及
我要发布
收藏
专利号: 202110812540X
申请人: 南京信息职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于数据挖掘技术的标签自动分类方法,其特征在于,包括如下步骤:

S1:获取观影记录日志信息,通过jieba分词技术提取信息中的语义关键字;

S2:基于资料库和标签规则库,根据语义关键字获取到OLP信息;

S3:判断获取到的OLP信息是否完整,如果完整,进入步骤S4,如果不完整,进入步骤S5;

S4:构建OLP关系树,并且根据OLP关系树构建标签目类结构树,结束分类;

标签目类结构树是以标签和标签对象构成的层次结构,树的节点是具体的属性,树的非叶子节点是标签的名称,目录树表达了对象的链接方式,显示了从一个对象到另一个对象的路径;

S5:基于历史信息标签库,对OLP信息进行相似度查询,判断OLP信息是否是噪声内容,如果是,剔除噪声关键字信息,完成分类流程;如果不是,通过网络爬虫信息获取到无法识别的关键字信息,且设定为待定义标签信息,根据待定义标签信息和历史库中的标签信息的相似度,对待定义标签信息进行定义处理;

所述步骤S2中OLP信息包括主体、客体、属性的关系;

所述步骤S4中构建OLP关系树,并且根据OLP关系树构建标签目类结构树的具体方式为:资料库包括人员库和影片库,如果在人员库匹配出来,确定主体的信息完整;如果在影片库匹配出来,确定客体的信息完整;根据影片的名称确定影片的类型;根据观影时间、影片类型,利用OLP信息规则自动创建人员的标签;

所述步骤S5中待定义标签信息的获取方法为:通过网络爬虫信息将无法识别的关键字的信息接入互联网获取分类,并将自动分类为待定义的标签信息;

所述步骤S5中对待定义标签信息进行定义处理的方式为:将待定义的标签信息与历史库中的标签信息做余弦相似度计算,将相似度大于设定值的待定义标签信息直接维护到标签规则库中,相似度低于设定值的待定义标签信息通过人工进行判定和维护,再维护到标签规则库中。

2.根据权利要求1所述的一种基于数据挖掘技术的标签自动分类方法,其特征在于,所述步骤S2中OLP信息的获取方式为:根据语义关键字在资料库和标签规则库中进行查询,获取到对应的OLP信息。