利索能及
我要发布
收藏
专利号: 2018103617020
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本分类模型的生成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的模型生成程序,所述模型生成程序被所述处理器执行时实现如下步骤:获取基于收集的金融领域词汇构建的金融领域的分词词典,以及预设的金融领域的文本语料;

根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典;

获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注;

基于添加了候选新词的所述分词词典,使用预设的分词算法对所述样本集中的训练样本进行分词处理;

根据分词结果提取词向量,基于adaboost算法,将训练样本对应的词向量和标注的类别信息输入到预设的多个弱分类器中进行训练,将训练得到的多个弱分类器组合为金融领域的文本分类模型。

2.如权利要求1所述的文本分类模型的生成装置,其特征在于,所述根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典的步骤包括:基于所述分词词典,使用所述分词算法对所述文本语料进行分词处理,根据所述分词结果获取候选词集合;

计算所述候选词集合中各个候选词的信息增益,选择信息增益大于第一预设阈值的候选词作为第一候选新词,将所述第一候选新词添加到所述分词词典中;

基于添加了所述第一候选新词的分词词典,使用所述分词算法对所述文本语料进行分词,并使用分词处理后的文本语料训练词向量模型;

使用训练得到的词向量模型计算分词结果中的词与所述第一候选新词的语义相似度;

将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述分词词典中。

3.如权利要求2所述的文本分类模型的生成装置,其特征在于,所述处理器还可用于执行所述模型生成程序,以在所述将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述词词典的步骤之后,还实现如下步骤:计算所述第二候选新词在文本语料中的词频,并将计算得到的词频作为该第二候选新词在所述分词词典中的权重。

4.如权利要求1至3中任一项所述的文本分类模型的生成装置,其特征在于,所述获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注的步骤包括:获取样本集,并获取多个标注人按照预设情感倾向分类模式对样本集中的训练样本进行标注得到的多个标注信息,从所述多个标注信息中,选择出现次数最多的标注信息作为对应的训练样本的标注结果。

5.如权利要求1至3中任一项所述的文本分类模型的生成装置,其特征在于,所述弱分类器包括基于卷积神经网络算法的分类器、基于循环神经网络算法的分类器和基于长短期记忆网络算法的分类器。

6.一种文本分类模型的生成方法,其特征在于,所述方法包括:

获取基于收集的金融领域词汇构建的金融领域的分词词典,以及预设的金融领域的文本语料;

根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典;

获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注;

基于添加了候选新词的所述分词词典,使用预设的分词算法对所述样本集中的训练样本进行分词处理;

根据分词结果提取词向量,基于adaboost算法,将训练样本对应的词向量和标注的类别信息输入到预设的多个弱分类器中进行训练,将训练得到的多个弱分类器组合为金融领域的文本分类模型。

7.如权利要求6所述的文本分类模型的生成方法,其特征在于,所述根据预设算法从所述文本语料中选择候选新词,添加至所述分词词典的步骤包括:基于所述分词词典,使用所述分词算法对所述文本语料进行分词处理,根据所述分词结果获取候选词集合;

计算所述候选词集合中各个候选词的信息增益,选择信息增益大于第一预设阈值的候选词作为第一候选新词,将所述第一候选新词添加到所述分词词典中;

基于添加了所述第一候选新词的分词词典,使用所述分词算法对所述文本语料进行分词,并使用分词处理后的文本语料训练词向量模型;

使用训练得到的词向量模型计算分词结果中的词与所述第一候选新词的语义相似度;

将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述分词词典中。

8.如权利要求7所述的文本分类模型的生成方法,其特征在于,所述将语义相似度大于第二预设阈值的词作为第二候选新词,并将所述第二候选新词添加到所述词词典的步骤之后,所述方法还包括步骤:计算所述第二候选新词在文本语料中的词频,并将计算得到的词频作为该第二候选新词在所述分词词典中的权重。

9.如权利要求6至8中任一项所述的文本分类模型的生成方法,其特征在于,所述获取样本集,按照预设情感倾向分类模式对所述样本集中的训练样本进行类别标注的步骤包括:获取样本集,并获取多个标注人按照预设情感倾向分类模式对样本集中的训练样本进行标注得到的多个标注信息,从所述多个标注信息中,选择出现次数最多的标注信息作为对应的训练样本的标注结果。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有模型生成程序,所述模型生成程序可被一个或者多个处理器执行,以实现如权利要求6至9中任一项所述的文本分类模型的生成方法的步骤。