利索能及
我要发布
收藏
专利号: 2018101459056
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文章分类方法,其特征在于,包括:

将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;

通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;

按主题标签对已打标签文章进行分类,得到文章分类结果。

2.根据权利要求1所述的文章分类方法,其特征在于,所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵之前,还包括:对待打标签文章进行分词,得到分词后文本;

对分词后文本包括的分词一一设置加权值;

删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;

获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;

若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;

根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。

3.根据权利要求1所述的文章分类方法,其特征在于,所述LDA模型为:其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。

4.根据权利要求2所述的文章分类方法,其特征在于,所述对待打标签文章进行分词,得到分词后文本之前,还包括:爬取待打标签文章,并将待打标签文章传输至指定路径存储。

5.根据权利要求3所述的文章分类方法,其特征在于,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。

6.一种文章分类装置,其特征在于,包括:

LDA模型训练单元,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;

主题标签增加单元,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;

文章分类单元,用于按主题标签对已打标签文章进行分类,得到文章分类结果。

7.根据权利要求6所述的文章分类装置,其特征在于,还包括:分词单元,用于对待打标签文章进行分词,得到分词后文本;

加权单元,用于对分词后文本包括的分词一一设置加权值;

统计单元,用于删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;

相似度获取单元,用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;

删词单元,用于若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;

词语-文档矩阵获取单元,用于根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。

8.根据权利要求6所述的文章分类装置,其特征在于,所述LDA模型为:其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。

9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的文章分类方法。

10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的文章分类方法。