买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种文本分类的方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种文本分类的方法

￥30000

专利号： 201510267849X

申请人：齐鲁工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种文本分类的方法，其特征词在于，其具体实现步骤为，一、首先获取网络中的文本；

二、对文本进行预处理，提取特征词，对网络中的文本进行分词，然后去除停用词；

三、计算出网络文本中各特征词的权重，并将文本用向量模型进行表示；

所述特征词的权重计算通过改进的TFIDF算法完成，该改进的TFIDF的算法的具体内容为：IDF＝logn×log(N/(n+k)+0.01)，其中n∈N^+，且n+k≠0；

其中，总文档文本数为N，包含特征词t_i的文档数为n，k为任意参数，对选取的特征词t_i的权重进行调整，在该公式中，当含特征词t_i的文档数n逐渐增大时，特征词t_i的文档区分能力逐渐增强，当n达到某一值时，特征词t_i的文档区分能力应随着n的增大而逐渐减少，在IDF公式中，IDF先增后减，且n趋向于1和n趋向于N时，IDF都趋向于0。

2.根据权利要求1所述的一种文本分类的方法，其特征词在于，所述特征词的选取过程为：构造评估函数，对特征词集合中的每个特征词进行评估，并对每个特征词打分，使每个词语都获得一个评估值，即权值；

然后将所有特征词按权值大小排序；

提取预定数目的最优特征词作为提取结果的特征词子集。