利索能及
我要发布
收藏
专利号: 2016103808137
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-11-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于聚类和隶属度融合的改进型文本分类算法,其特征在于,包括如下步骤:步骤1,获取多个类别的训练文本,组成训练文本集;对待分类文本以及训练文本集中各训练文本进行分词,并对词进行预处理,预处理后提取文本特征词组成多维度空间向量,将待分类文本以及训练文本集中各训练文本用向量表示;

步骤2,在步骤1的基础上,利用聚类算法对每个类别中的训练文本向量进行聚类,设定每个类别聚类形成的簇的数目相同;

步骤3,将每个类别中同一个簇内的所有训练文本向量进行合并,得到新的文本向量,从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同;

步骤4,计算待分类文本向量与步骤3得到的新的文本向量的相似度,并按相似度由大到小进行排序,选出相似度最大的前M个新的文本向量;将前M个新的文本向量中属于同一类别的文本向量的相似度相加,各个类别相加后的结果除以对应类别中新的文本向量的总个数,得到待分类文本与对应类别的相似度;

步骤5,计算步骤3合并后每个类别的中心向量,以及每个类别中新的文本向量到中心向量的平均距离;计算待分类文本向量与每个类别的中心向量的距离,用上述平均距离除以该距离,得到待分类文本隶属各个类别的程度;

步骤6,将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加,选出最大值,该最大值对应的类别即为待分类文本的类别。

2.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。

3.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤1所述提取文本特征词的方法为CHI概率统计法。

4.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤2所述每个类别聚类形成的簇数满足以下条件:该簇数小于训练文本数最少的类别中训练文本的个数,且该簇数大于M。

5.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤4所述相似度sim的计算公式为:

其中,O=(x1,x2,…,xn)表示待分类文本向量,T=(y1,y2,…,yn)表示新的文本向量,n表示维数,d(O,T)表示O与T的欧氏距离。

6.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤5所述中心向量S和平均距离Dis的计算公式为:

其中,dtj表示类别Cj的第t个新的文本向量,p表示每个类别中新的文本向量的个数。

7.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法,其特征在于,步骤5所述待分类文本向量与每个类别的中心向量的距离的计算公式为:

其中,O=(x1,x2,…,xn)表示待分类文本向量,Sj=(z1,z2,…,zn)表示类别Cj的中心向量,n表示维数。