利索能及
我要发布
收藏
专利号: 2017104330790
申请人: 江西科技学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文档分类方法,其特征在于,所述方法包括:

获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;

获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;

将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。

2.根据权利要求1所述的文档分类方法,其特征在于,所述将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重的步骤包括:对所述高频权重进行降纬计算,以得到所述高频权重对应的最终权重;

将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。

3.根据权利要求1所述的文档分类方法,其特征在于,所述权重计算采用的公式为:W(i)=k×flag(i)+TF(i);

上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。

4.根据权利要求3所述的文档分类方法,其特征在于,flag的取值步骤包括:获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;

若是,则将flag的值取为1;

若否,则将flag的值取为0。

5.根据权利要求1所述的文档分类方法,其特征在于,所述降纬计算采用的公式为:上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。

6.根据权利要求1所述的文档分类方法,其特征在于,所述对比公式为:上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。

7.一种文档分类装置,其特征在于,包括:

第一计算模块,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;

第二计算模块,用于获取目标文档,对所述目标文档中的目标词汇进行所述权重公式计算,以得到所述目标词汇对应的目标权重;

第三计算模块,包括第一子计算模块,用于根据所述第一计算模块和所述第二计算模块的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;

第四计算模块,用于根据所述第三计算模块的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。

8.根据权利要求7所述的文档分类装置,其特征在于,所述第三计算模块还包括:第二子计算模块,用于对所述高频权重进行降纬计算,以得到所述样本文档对应的最终权重;

第三子计算模块,用于根据所述第二子计算模块的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。

9.根据权利要求7所述的文档分类装置,其特征在于,所述第一计算模块和所述第二计算模块均包括:第一运行模块,用于运行权重公式,所述权重公式为:

W(i)=k×flag(i)+TF(i)

上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重;

查询模块,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;

若是,则将flag的值取为1;

若否,则将flag的值取为0。

10.根据权利要求8所述的文档分类装置,其特征在于,所述第二子计算模块包括:第二运行模块,用于运行降纬公式,所述降纬公式为:

上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。