1.一种基于头脑风暴优化算法的中文网页分类方法,其特征在于,包括:对中文文档进行分词,并根据词频建立中文文档的单词索引;
根据中文文档的单词索引,建立中文文档分词向量;
采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;
采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;
根据优化后的中文文档分类算法,对中文文档进行分类;
所述中文文档分类算法包括:k最近邻算法、k加权最近邻算法;
所述采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;具体包括:对于k最近邻算法,中文文档分类算法的性能优化如下:其中,y'为最大预测样本值;v是类别标记;yi是根据最近样本得到的类别,如果分类相同I(·)为1,否则为0;xi为第i个词组;
对于k最近邻算法,中文文档分类算法的参数优化如下:将k作为优化决策变量,设定初步优化目标函数:将不同的k取值作为解,将分类的错误率作为函数值;
所述采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;具体包括:对于k最近邻算法,中文文档分类算法训练集的样本数目优化如下:将k和每个类别的训练样本数目ni作为优化决策变量,设定初步优化目标函数:其中,N={n1,...ni,...nm},m为分类的总类别数,ni为类别i的训练样本数目;将不同的k和N的取值作为解,将分类的错误率作为函数值;
对于k最近邻算法,中文文档分类算法训练集的样本选择优化如下:t
将k和每个类别的训练样本X作为优化决策变量,设定初步优化目标函数:其中, m为分类的总类别数,ni为类别i的训练t t
样本数目,X i,1表示类别i的第一个训练样本;将不同的k和X的取值作为解,将分类的错误率作为函数值。
2.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述对中文文档进行分词,并根据词频建立中文文档的单词索引;具体包括:对网页长文本信息进行预处理;去掉每个网页中无关词汇,对句子进行分词,将长文本转化为包含多个词语的词袋,每个词语为一个变量;一个网页被转化为包含词汇多个变量的链表或称为一个长向量,长向量用X=(x1,x2,...,xn)表示,其中,X为一个网页包含的所有词组的集合,x1到xn为单个词组。
3.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述根据中文文档的单词索引,建立中文文档分词向量;具体包括:计算词汇的出现频率,去掉无关词汇,调整其余每个词汇的权重信息;对中文文档建立词频‑逆文本频率指数序列;选择部分文档进行类别标注,作为分类样例。