1.一种新闻文本的分类方法,其特征在于,包括:
获取待分类的新闻文本的统一资源定位符;
对所述统一资源定位符中的网站名进行切分处理得到第一切分词,以及对所述统一资源定位符中的文件名、路径进行切分处理得到第二切分词;
基于所述第一切分词、所述第二切分词,以及切分词和比例矩阵的对应关系,确定得到所述第一切分词相应的第一比例矩阵和所述第二切分词相应的第二比例矩阵,其中,所述切分词和比例矩阵的对应关系为新闻网站内统一资源定位符中包含切分词的每个新闻文本类型的新闻文本数除以新闻网站内统一资源定位符中包含切分词的所有新闻文本数;
基于所述第一切分词相应的第一比例矩阵、所述第二切分词相应的第二比例矩阵,以及新闻网站中每个新闻文本类型的新闻文本的比例,确定所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度,其中,所述新闻网站中每个新闻文本类型的新闻文本的比例为新闻网站中每个新闻文本类型的新闻文本数除以新闻网站中所有新闻文本数;
选取所述关联度最高的新闻文本类型作为所述待分类的新闻文本的新闻文本类型。
2.根据权利要求1所述的新闻文本的分类方法,其特征在于,所述基于所述第一切分词相应的第一比例矩阵、所述第二切分词相应的第二比例矩阵,以及新闻网站中每个新闻文本类型的新闻文本的比例,确定所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度,包括:基于以下公式确定所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度:
其中,Ci为第i个新闻文本类型,P(Ci)为新闻网站中每个新闻文本类型的新闻文本的比例,yhr为所述第一切分词中第r个切分词,yus为所述第二切分词中第s个切分词,P(yhr│Ci)为所述第一切分词相应的第一比例矩阵,P(yus│Ci)为所述第二切分词相应的第二比例矩阵,P(Ci│Y)为所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度。
3.根据权利要求1所述的新闻文本的分类方法,其特征在于,在对所述统一资源定位符中的网站名进行切分处理得到第一切分词,以及对所述统一资源定位符中的文件名、路径进行切分处理得到第二切分词之前,包括:删除所述统一资源定位符中的网络协议标识以及端口号。
4.根据权利要求3所述的新闻文本的分类方法,其特征在于,在删除所述统一资源定位符中的网络协议标识以及端口号之前,包括:检测所述统一资源定位符是否符合标准网址格式;
所述删除所述统一资源定位符中的网络协议标识以及端口号,包括:
若检测到所述统一资源定位符符合标准网址格式,则删除所述统一资源定位符中的网络协议标识以及端口号。
5.根据权利要求1所述的新闻文本的分类方法,其特征在于,所述对所述统一资源定位符中的网站名进行切分处理得到第一切分词,以及对所述统一资源定位符中的文件名、路径进行切分处理得到第二切分词,包括:确定所述统一资源定位符中处于网站名位置的字符,以及所述统一资源定位符中处于文件名位置、路径位置的字符;
基于预设的第一分隔符对所述统一资源定位符中处于网站名位置的字符进行切分处理得到所述第一切分词,以及基于预设的第二分隔符对所述统一资源定位符中处于文件名位置、路径位置的字符进行切分处理得到所述第二切分词。
6.一种新闻文本的分类装置,其特征在于,包括:
获取单元,用于获取待分类的新闻文本的统一资源定位符;
切分单元,用于对所述统一资源定位符中的网站名进行切分处理得到第一切分词,以及对所述统一资源定位符中的文件名、路径进行切分处理得到第二切分词;
第一执行单元,用于基于所述第一切分词、所述第二切分词,以及切分词和比例矩阵的对应关系,确定得到所述第一切分词相应的第一比例矩阵和所述第二切分词相应的第二比例矩阵,其中,所述切分词和比例矩阵的对应关系为新闻网站内统一资源定位符中包含切分词的每个新闻文本类型的新闻文本数除以新闻网站内统一资源定位符中包含切分词的所有新闻文本数;
第二执行单元,用于基于所述第一切分词相应的第一比例矩阵、所述第二切分词相应的第二比例矩阵,以及新闻网站中每个新闻文本类型的新闻文本的比例,确定所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度,其中,所述新闻网站中每个新闻文本类型的新闻文本的比例为新闻网站中每个新闻文本类型的新闻文本数除以新闻网站中所有新闻文本数;
分类单元,用于选取所述关联度最高的新闻文本类型作为所述待分类的新闻文本的新闻文本类型。
7.根据权利要求6所述的新闻文本的分类装置,其特征在于,所述第二执行单元用于基于以下公式确定所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度:其中,Ci为第i个新闻文本类型,P(Ci)为新闻网站中每个新闻文本类型的新闻文本的比例,yhr为所述第一切分词中第r个切分词,yus为所述第二切分词中第s个切分词,P(yhr│Ci)为所述第一切分词相应的第一比例矩阵,P(yus│Ci)为所述第二切分词相应的第二比例矩阵,P(Ci│Y)为所述待分类的新闻文本与新闻网站中每个新闻文本类型的关联度。
8.根据权利要求6所述的新闻文本的分类装置,其特征在于,所述装置还包括:
删除单元,用于删除所述统一资源定位符中的网络协议标识以及端口号。
9.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述的方法。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至5中任一项所述的方法。