1.一种学生浏览网页分类方法,其特征在于,包括如下步骤:
步骤一:从导航类网站爬取URL、URL描述内容、URL一级分类和URL二级分类,并保存到URL集合中,构建语料库,将语料库中URL描述内容文本表示成uni-gram和bi-gram的形式,以TF-IDF作为文本特征的权重,用朴素贝叶斯分类算法得到分类器;
步骤二:通过爬虫爬取URL网页内容,由步骤一中得出的分类器确定URL所属类别;
步骤三:定义学生浏览网页地址集,对学生浏览的URL进行切分处理,根据步骤二中得出的URL所属类别判断如果分类器返回的类别概率大于所设分类概率阈值CP且分类器返回的类别和使用支持向量机分类得到的类别相同,将该URL和URL类别存入到URL集合中;若分类器无法确定类别,则和URL集合进行字符匹配来确定URL类别,最后得到所有学生网页浏览分类集;
所述步骤一中构建语料库和分类器的具体步骤如下:
步骤1.1:定义文本停用词集SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1);定义语料库四个分类,分别为娱乐休闲、电脑网络、生活服务和文化教育,G1、G2、G3和G4分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集,G1={URLInfo1,1,URLInfo1,2,...URLInfo1,a},G2={URLInfo2,1,URLinfo2,2,..,URLInfo2,b},G3={URLInfo3,1,URLInfo3,2,...URLInfo3,c},G4={URLInfo4,1,URLInfo4,2,..,URLInfo4,d},其中,a、b、c和d分别表示G1、G2、G3和G4类别中的URL个数,从导航目录网站爬取的URL信息为URLInfox,y={FirCatex,y,SecCatex,y,URLx,y,URLContentx,y},FirCatex,y,SecCatex,y,URLx,y,URLContentx,y分别表示第Gx类别下第y个URL一级类别、URL二级类别、URL和URL描述内容,x∈[1,4],x为整数,y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数;
步骤1.2:将SecCatex,y为“电视”所对应的一级分类FirCatex,y修改为“娱乐休闲”,将FirCatex,y为“安逸网站大全”的将FirCatex,y修改为“电脑网络”,将SecCatex,y为“成绩查询”和“在线翻译”所对应的一级分类FirCatex,y修改为“文化教育”;
步骤1.3:使用jieba分词对G1,G2,G3,G4中所有URL描述内容进行分词处理,去除停用词SWORD,得到文本分类语料库StuCate={Cate1,Cate2,Cate3,Cate4},其中,娱乐休闲类文本集Cate1={txt1,1,txt1,2,...,txt1,s},电脑网络类文本集Cate2={txt2,1,txt2,2,...,txt2,t},生活服务类文本集Cate3={txt3,1,txt3,2,...,txt3,u},文化教育类文本集Cate4={txt4,1,txt4,2,...,txt4,u},文本单词集txtm,n={wordm,n,1,wordm,n,2,...,wordm,n,z},所述的txtm,n为Catem的第n篇文本中的单词内容,所述的z为第Catem类别下第n个文本的单词个数,所述的wordm,n,e为Catem的第n篇文本内容中第e个单词,所述的s、t、u和v分别为娱乐休闲、电脑网络、生活服务和文化教育类文本个数,且m∈[1,4];
步骤1.4:随机取StuCate中每个类别集合的80%文本作为训练集,把文本表示成uni-gram和bi-gram的形式,结合TF-IDF作为特征的权重;
步骤1.5:使用平滑参数为Alpha的朴素贝叶斯分类算法得到分类器,取StuCate中每个类别集合剩余的20%文本作为测试集,测试分类器准确率。
2.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤一中分类器是使用平滑参数Alpha的朴素贝叶斯分类算法得到的,其中参数Alpha的值为0.001。
3.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤二中分类概率阈值CP的取值为0.78。
4.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤二中确定URL所属类别的具体步骤如下:步骤2.1:定义网页页面访问错误词集EWORD={eword1,eword2,…,eworden},其中,ewordewi为第ewi个网页页面访问错误词,en为网页页面访问错误词总数;定义网页文本停用词SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义网页类别字符集STUCATE={娱乐休闲、电脑网络、生活服务和文化教育};定义URL及URL类别集合为URLS={URLAndCate1,URLAndCate2,...,URLAndCateun},其中,URL及URL类别内容URLAndCateuc={SURLuc,FCATEuc},un为URL类别集合中URL的个数,SURLuc和FCATEuc分别表示为第uc个URL和URL所对应的类别;定义待分类URL为JudgeURL,待分类URL所属于的类别为JudgeCate;
步骤2.2:获取JudgeURL;判断能否爬取该JudgeURL,如果能爬取则进入步骤2.3;如果不能爬取则进入步骤2.5;
步骤2.3:爬取该JudgeURL网页内容中的title,description,keywords,得到网页内容集webcon={title,description,keywords};当 时,进入步骤2.4;否则进入步骤2.9;
步骤2.4:定义循环变量ju,赋初值为1;
步骤2.5:对比ju与un的数值大小,当ju<=un时,进入步骤2.6;否则进入步骤2.9;
步骤2.6:判断JudgeURL与SURLju是否相等,如果相等进入步骤2.8;如果不相等进入步骤2.7;
步骤2.7:对循环变量ju的数值加一并重新进入步骤2.5进行判断;
步骤2.8:确定JudgeURL的类别FCATEju,把FCATEju赋值给JudgeURL,其中,JudgeCate∈STUCATE,进入步骤2.15;
步骤2.9:JudgeCate=None, 转至步骤2.15;
步骤2.10:对webcon分词,去除停用词SWORD,得到网页标题集webword={tword1,tword2,..,twordwn},使用朴素贝叶斯分类算法对webword进行分类,确定该JudgeURL的类别为JudgeCate,其中,twordtwi为第twi个网页标题词,wn为网页标题词的个数,JudgeCate∈STUCATE;
步骤2.11:当JudgeURL在URLS中不存在且JudgeURL包含路径‘/’数量为0或1时进入步骤2.12,否则进入步骤2.15;
步骤2.12:定义朴素贝叶斯返回的分类概率为P,支持向量机确定的该URL类别为SVMCate,分类概率阈值为CP;
步骤2.13:当P>CP且SVMCate=JudgeCate时,进入步骤2.13,否则进入步骤2.15;
步骤2.14:将{JudgeURL,JudgeCate}加入到URL及URL类别集合URLS中;
步骤2.15:得到JudgeCate。
5.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤三中得到所有学生网页浏览分类集的具体步骤如下:步骤3.1:定义学生浏览网页地址集WEB={web1,web2,...,websn},学生浏览网页分类集WCATE={SCate1,SCate2,...,SCatesn},其中,sn为网页地址总数,webwi和SCatewi分别为第wi个URL和网页所确定的类别;定义网页类别字符集STUCATE={娱乐休闲,电脑网络,生活服务,文化教育};
步骤3.2:定义循环变量i,用于遍历WEB,赋初值为1;
步骤3.3:比较i与sn的大小,当i<=sn时,进入步骤3.4;否则进入步骤3.22;
步骤3.4:去除URL中webi前缀“http://”和“https://”,定义URL中的目录分隔符‘/’的数量为SCount,将URL按照目录分隔符‘/’切分为WSPR={spr1,spr2,...,sprnws},其中sprsi是原始URL按‘/’切分后的第si个字符,nws=Scount;定义采用本步骤处理后的URL为SPRURLnws=spr1+‘/’+spr2+...+sprnws;
步骤3.5:定义循环变量wi,赋初值nws;
步骤3.6:比较wi与1的大小,当wi>=1时,进入步骤207;否则进入步骤3.13;
步骤3.7:将SPRURLwi赋值给步骤二中的待分类URL即JudgeURL;
步骤3.8:将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCatei;
步骤3.9:当SCatei∈STUCATE时,进入步骤3.10;否则进入步骤3.11;
步骤3.10:确定该URL的类别为SCatei,转至步骤3.12;
步骤3.11:对循环变量wi的数值减一并重新进入步骤3.6进行判断;
步骤3.12:对循环变量i的数值加一并重新进入步骤3.3进行判断;
步骤3.13:定义URL中的域名分隔符‘.’的数量为DCount,将URL按照域名分隔符‘.’切分为WDOT={dot1,dot2,...,dotDCount-1},其中dotdi是URL按‘.’切分后的第di个字符;定义采用本步骤处理后的URL为DOTURLmws=dotmws+‘.’+dot2+...+dotDCount-1,其中mws=1;
步骤3.14:定义循环变量ws,并赋初值1;
步骤3.15:当ws<=DCount-2时,进入步骤3.16;否则转至步骤3.19;
步骤3.16:将DOTURLws赋值给步骤二中的待分类URL即JudgeURL;
步骤3.17:将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCate;
步骤3.18:当SCatei∈SCATE时,转至步骤3.21;否则转至步骤3.20;
步骤3.19:SCatei为None,并进入步骤3.12;
步骤3.20:对循环变量ws的数值加一并重新进入步骤3.15进行判断;
步骤3.21:确定该URL的类别SCatei;
步骤3.22:得到处理后的网页浏览分类集WSCATE={SCate1,SCate2,...,SCatesn}。