买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于聚类和隶属度融合的改进型文本分类算法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于聚类和隶属度融合的改进型文本分类算法

￥19200

专利号： 2016103808137

申请人：南京邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2024-11-12

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于聚类和隶属度融合的改进型文本分类算法，其特征在于，包括如下步骤：步骤1，获取多个类别的训练文本，组成训练文本集；对待分类文本以及训练文本集中各训练文本进行分词，并对词进行预处理，预处理后提取文本特征词组成多维度空间向量，将待分类文本以及训练文本集中各训练文本用向量表示；

步骤2，在步骤1的基础上，利用聚类算法对每个类别中的训练文本向量进行聚类，设定每个类别聚类形成的簇的数目相同；

步骤3，将每个类别中同一个簇内的所有训练文本向量进行合并，得到新的文本向量，从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同；

步骤4，计算待分类文本向量与步骤3得到的新的文本向量的相似度，并按相似度由大到小进行排序，选出相似度最大的前M个新的文本向量；将前M个新的文本向量中属于同一类别的文本向量的相似度相加，各个类别相加后的结果除以对应类别中新的文本向量的总个数，得到待分类文本与对应类别的相似度；

步骤5，计算步骤3合并后每个类别的中心向量，以及每个类别中新的文本向量到中心向量的平均距离；计算待分类文本向量与每个类别的中心向量的距离，用上述平均距离除以该距离，得到待分类文本隶属各个类别的程度；

步骤6，将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加，选出最大值，该最大值对应的类别即为待分类文本的类别。

2.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。

3.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤1所述提取文本特征词的方法为CHI概率统计法。

4.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤2所述每个类别聚类形成的簇数满足以下条件：该簇数小于训练文本数最少的类别中训练文本的个数，且该簇数大于M。

5.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤4所述相似度sim的计算公式为：

其中，O＝(x1,x2,…,xn)表示待分类文本向量，T＝(y1,y2,…,yn)表示新的文本向量，n表示维数，d(O,T)表示O与T的欧氏距离。

6.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤5所述中心向量S和平均距离Dis的计算公式为：

其中，dtj表示类别Cj的第t个新的文本向量，p表示每个类别中新的文本向量的个数。

7.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤5所述待分类文本向量与每个类别的中心向量的距离的计算公式为：

其中，O＝(x1,x2,…,xn)表示待分类文本向量，Sj＝(z1,z2,…,zn)表示类别Cj的中心向量，n表示维数。

推荐专利

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们