1.一种分类模型训练的方法,其特征在于,应用于电子设备,所述分类模型用于文本挖掘分类,所述方法包括:计算各个文本样本特征在N个不同分类类别中的先验概率,其中,N大于1;所述文本样本特征的获取方式包括:针对文本样本进行分词处理,得到多个字词组合,对得到的字词组合进行特征提取,得到文本样本特征;
针对每一文本样本特征,依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数;
将各个文本样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练文本样本特征,所述样本特征矩阵由所述文本样本特征组成;
采用梯度提升决策树GBDT算法对所述待训练文本样本特征进行训练得到分类模型。
2.根据权利要求1所述的方法,其特征在于,所述N为2;
所述依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数,包括:计算该文本样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该文本样本特征的分类系数。
3.根据权利要求1所述的方法,其特征在于,所述N大于2;
所述依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数,包括:从该文本样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该文本样本特征的分类系数。
4.根据权利要求1‑3任一项所述的方法,其特征在于,所述计算各个文本样本特征在N个不同分类类别中的先验概率,包括:对各个文本样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个文本样本特征;
针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个文本样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个文本样本特征在N个分类类别中的先验概率。
5.根据权利要求1所述的方法,其特征在于,所述依据所述分类系数矩阵与样本特征矩阵确定待训练文本样本特征,包括:将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练文本样本特征。
6.一种分类模型训练装置,其特征在于,应用于电子设备,所述分类模型用于文本挖掘分类,所述装置包括:先验概率计算模块,用于计算各个文本样本特征在N个不同分类类别中的先验概率,其中,N大于1;所述文本样本特征的获取方式包括:针对文本样本进行分词处理,得到多个字词组合,对得到的字词组合进行特征提取,得到文本样本特征;
分类系数确定模块,用于针对每一文本样本特征,依据该文本样本特征在N个不同分类类别中的先验概率确定该文本样本特征的分类系数;
待训练样本特征确定模块,用于将各个文本样本特征的分类系数组成分类系数矩阵,依据所述分类系数矩阵与样本特征矩阵确定待训练文本样本特征,所述样本特征矩阵由所述文本样本特征组成;
分类模块训练模块,用于采用梯度提升决策树GBDT算法对所述待训练文本样本特征进行训练得到分类模型。
7.根据权利要求6所述的装置,其特征在于,所述N为2;所述分类系数确定模块具体用于:计算该文本样本特征在两个分类类别中的先验概率的比值;
将所述比值的对数作为该文本样本特征的分类系数。
8.根据权利要求6所述的装置,其特征在于,所述N大于2;所述分类系数确定模块具体用于:从该文本样本特征在N个不同分类类别中的先验概率中,选取取值最大的先验概率;
将选取的先验概率作为该文本样本特征的分类系数。
9.根据权利要求6‑8任一项所述的装置,其特征在于,所述先验概率计算模块包括:离散化处理子模块,用于对各个文本样本特征进行离散化处理获得多个特征簇,其中,每个特征簇包括多个文本样本特征;
先验概率计算子模块,用于针对每一特征簇,采用朴素贝叶斯算法对该特征簇中包含的各个文本样本特征的特征值进行累计得到特征总值,基于所述特征总值计算该特征簇分别在N个分类类别中的先验概率,将该特征簇在N个分类类别中的先验概率确定为该特征簇中各个文本样本特征在N个分类类别中的先验概率。
10.根据权利要求6所述的装置,其特征在于,所述待训练样本特征确定模块具体用于:将所述分类系数矩阵与样本特征矩阵进行点乘运算得到所述待训练文本样本特征。