利索能及
我要发布
收藏
专利号: 2017104333568
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多数据源数据的归类方法,其特征在于,包括:

根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;

从所述各个目标数据中提取各个关键字;

分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;

分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;

根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;

将词语热度值最高的所述关键字确定为新的分类标签;

采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。

2.根据权利要求1所述的多数据源数据的归类方法,其特征在于,所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:将所述多媒体信息平台展示的数据中最近获取的数据确定为所述目标数据,所述最近获取的数据为所述多媒体信息平台在距离当前时间的预设时间长度内从第三方数据源处获取的数据;

和/或

将所述多媒体信息平台展示的数据中未贴有分类标签的数据确定为所述目标数据。

3.根据权利要求1所述的多数据源数据的归类方法,其特征在于,在根据预设方式从多媒体信息平台展示的数据中确定各个目标数据之前,还包括:判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;

若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;

所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:将所述播放量最少的分类标签下的所有数据确定为所述目标数据;

在将词语热度值最高的所述关键字确定为新的分类标签之前,所述多数据源数据的归类方法还包括:从所述多媒体信息平台上删除所述播放量最少的分类标签。

4.根据权利要求1所述的多数据源数据的归类方法,其特征在于,所述多数据源数据的归类方法还包括:获取来自第三方数据源的新的数据;

采用所述已设定的分类标签对获取到的所述新的数据进行匹配;

若所述新的数据匹配成功,则为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签;

若所述新的数据未匹配成功,则判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;

若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;然后执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤,并且在将词语热度值最高的所述关键字确定为新的分类标签之前,从所述多媒体信息平台上删除所述播放量最少的分类标签;

若所述多媒体信息平台上已设定的分类标签的数目未达到预设的数目阈值,则执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤。

5.根据权利要求1至4中任一项所述的多数据源数据的归类方法,其特征在于,所述从所述各个目标数据中提取各个关键字包括:若所述目标数据为音频数据,则对所述音频数据进行音频识别,得到音频文本信息;

若所述目标数据为视频数据,则对所述视频数据进行图像识别,得到视频文本信息;

若所述目标数据为文本数据,则对所述文本数据进行数据清洗,得到清洗后的文本信息;

采用正向最大匹配算法从所述音频文本信息、所述视频文本信息和/或所述清洗后的文本信息中提取得到各个关键字。

6.一种计算机可读存储介质,所述计算机可读存储介质存储有多数据源数据的归类程序,其特征在于,所述多数据源数据的归类程序被至少一个处理器执行时,实现如权利要求

1至5中任一项所述的多数据源数据的归类方法的步骤。

7.一种服务器,其特征在于,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多数据源数据的归类程序,所述处理器执行所述多数据源数据的归类程序时实现如下步骤:根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;

从所述各个目标数据中提取各个关键字;

分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;

分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;

根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;

将词语热度值最高的所述关键字确定为新的分类标签;

采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。

8.根据权利要求7所述的服务器,其特征在于,所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:将所述多媒体信息平台展示的数据中最近获取的数据确定为所述目标数据,所述最近获取的数据为所述多媒体信息平台在距离当前时间的预设时间长度内从第三方数据源处获取的数据;

和/或

将所述多媒体信息平台展示的数据中未贴有分类标签的数据确定为所述目标数据。

9.根据权利要求7或8所述的服务器,其特征在于,在根据预设方式从多媒体信息平台展示的数据中确定各个目标数据之前,还包括:判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;

若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;

所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:将所述播放量最少的分类标签下的所有数据确定为所述目标数据;

在将词语热度值最高的所述关键字确定为新的分类标签之前,所述处理器执行所述多数据源数据的归类程序时还包括:从所述多媒体信息平台上删除所述播放量最少的分类标签。

10.根据权利要求7或8所述的服务器,其特征在于,所述处理器执行所述多数据源数据的归类程序时还包括:获取来自第三方数据源的新的数据;

采用所述已设定的分类标签对获取到的所述新的数据进行匹配;

若所述新的数据匹配成功,则为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签;

若所述新的数据未匹配成功,则判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;

若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;然后执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤,并且在将词语热度值最高的所述关键字确定为新的分类标签之前,从所述多媒体信息平台上删除所述播放量最少的分类标签;

若所述多媒体信息平台上已设定的分类标签的数目未达到预设的数目阈值,则执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤。