利索能及
我要发布
收藏
专利号: 201510267849X
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本分类的方法,其特征词在于,其具体实现步骤为,一、首先获取网络中的文本;

二、对文本进行预处理,提取特征词,对网络中的文本进行分词,然后去除停用词;

三、计算出网络文本中各特征词的权重,并将文本用向量模型进行表示;

所述特征词的权重计算通过改进的TFIDF算法完成,该改进的TFIDF的算法的具体内容为:IDF=logn×log(N/(n+k)+0.01),其中n∈N^+,且n+k≠0;

其中,总文档文本数为N,包含特征词t_i的文档数为n,k为任意参数,对选取的特征词t_i的权重进行调整,在该公式中,当含特征词t_i的文档数n逐渐增大时,特征词t_i的文档区分能力逐渐增强,当n达到某一值时,特征词t_i的文档区分能力应随着n的增大而逐渐减少,在IDF公式中,IDF先增后减,且n趋向于1和n趋向于N时,IDF都趋向于0。

2.根据权利要求1所述的一种文本分类的方法,其特征词在于,所述特征词的选取过程为:构造评估函数,对特征词集合中的每个特征词进行评估,并对每个特征词打分,使每个词语都获得一个评估值,即权值;

然后将所有特征词按权值大小排序;

提取预定数目的最优特征词作为提取结果的特征词子集。