利索能及
我要发布
收藏
专利号: 2015109906088
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-03
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文档主题词提取方法,其特征在于,所述方法包括:

对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;

针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值,其中,所述获取与所述分词属性相对应的权值,包括:判断所述分词属性是否满足多个预设条件中的至少一个预设条件;在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值;

根据所述与所述分词属性相对应的所述权值,确定该分词在所述目标文档中的词频权重,其中,通过以下方式来确定该分词在所述目标文档中的词频权重:其中,TFW表示分词的词频权重;Wn表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在所述目标文档中的总出现次数;I表示所述目标文档中的分词总数;

基于所述文档库,确定所述分词的逆向文档频率;

基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。

2.根据权利要求1所述的方法,其特征在于,所述获取与所述分词属性相对应的权值,还包括:在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。

3.根据权利要求2所述的方法,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。

4.根据权利要求3所述的方法,其特征在于,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。

5.根据权利要求1所述的方法,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。

6.根据权利要求1所述的方法,其特征在于,所述基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词,包括:计算所述分词的词频权重与逆向文档频率的乘积;

按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。

7.一种文档主题词提取装置,其特征在于,所述装置包括:

分词处理模块,被配置为对目标文档进行分词处理,其中,所述目标文档为文档库中的任一文档;

权值获取模块,被配置为针对同一分词,根据该分词在所述目标文档中每次出现时的分词属性,获取与所述分词属性相对应的权值;其中,所述权值获取模块包括:判断子模块,被配置为判断所述分词属性是否满足多个预设条件中的至少一个预设条件;第二权值获取子模块,被配置为在所述分词属性满足至少一个预设条件时,获取所述分词属性所满足的各个预设条件所对应的权值,并将获取到的各个预设条件所对应的权值的乘积作为与所述分词属性相对应的权值;

词频权重确定模块,被配置为根据所述与所述分词属性相对应的所述权值,确定该分词在所述目标文档中的词频权重,其中,所述词频权重确定模块被配置为通过以下方式来确定该分词在所述目标文档中的词频权重:其中,TFW表示分词的词频权重;Wn表示该分词在所述目标文档中第n次出现时的分词属性所对应的权值;N表示该分词在所述目标文档中的总出现次数;I表示所述目标文档中的分词总数;

逆向文档频率确定模块,被配置为基于所述文档库,确定所述分词的逆向文档频率;

主题词提取模块,被配置为基于所述词频权重和所述逆向文档频率,提取预定数量的分词作为所述目标文档的主题词。

8.根据权利要求7所述的装置,其特征在于,所述权值获取模块还包括:

第一权值获取子模块,被配置为在所述分词属性不满足任一预设条件时,获取预设的基准权值作为与所述分词属性相对应的权值。

9.根据权利要求8所述的装置,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。

10.根据权利要求9所述的装置,其特征在于,所述分词位置位于段首这一预设条件所对应的权值、所述分词位置位于标题这一预设条件所对应的权值、所述分词的字体样式为粗体这一预设条件所对应的权值、所述分词的字体样式为斜体这一预设条件所对应的权值、以及所述分词的字体号大于常规字体号这一预设条件所对应的权值大于所述基准权值;以及所述分词的字体号小于常规字体号这一预设条件所对应的权值、所述分词内容与预设的干扰词内容相匹配这一预设条件所对应的权值小于所述基准权值。

11.根据权利要求7所述的装置,其特征在于,所述分词属性包括分词位置、字体样式、字体号和分词内容;以及,所述多个预设条件包括:分词位置位于段首;分词位置位于标题;

分词的字体样式为粗体;分词的字体样式为斜体;分词的字体号大于常规字体号;分词的字体号小于常规字体号;分词内容与预设的干扰词内容相匹配。

12.根据权利要求7所述的装置,其特征在于,所述主题词提取模块包括:

计算子模块,被配置为计算所述分词的词频权重与逆向文档频率的乘积;

主题词提取子模块,被配置为按照所述词频权重与所述逆向文档频率的乘积从大到小的顺序,提取预定数量的分词作为所述目标文档的主题词。