利索能及
我要发布
收藏
专利号: 2024101898472
申请人: 广东海洋大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种新闻文本分类方法,其特征在于,包括以下步骤:

S1、根据新闻文本的标题和首段文本内容,生成标题与首段文本内容之间的第一内容关联权重;

S2、根据新闻文本的标题、末段文本内容以及第一内容关联权重,生成标题与末段文本内容之间的第二内容关联权重;

S3、根据新闻文本中除首段文本内容和末段文本内容外其余文本内容,生成第三内容关联权重;

S4、构建文本处理模型,将第一内容关联权重、第二内容关联权重以及第三内容关键权重输入至文本处理模型中,得到新闻文本的分类结果;

所述S1包括以下子步骤:

S11、剔除新闻文本的标题和首段文本内容的停用词,分别得到标准标题和标准首段文本内容;

S12、提取标准首段文本内容中与标准标题的相同单词,生成第一训练单词序列;

S13、根据第一训练单词序列,确定首段占比率;

S14、根据首段占比率,生成标题与首段文本内容之间的第一内容关联权重;

所述S2包括以下子步骤:

S21、剔除末段文本内容的停用词,得到标准末段文本内容;

S22、提取标准末段文本内容中与标准标题的相同单词,生成第二训练单词序列;

S23、根据第二训练单词序列,确定末段占比率;

S24、根据首段占比率、末段占比率以及第一内容关联权重,计算标准首段文本内容与标准末段文本内容之间的内容关联标签值;

S26、根据标准首段文本内容与标准末段文本内容之间的内容关联标签值,生成标题与末段文本内容之间的第二内容关联权重;

所述S3中,生成第三内容关联权重的具体方法为:选取除首段文本内容和末段文本内容外其余文本内容中单词数量最多的段落,作为次要段落,提取次要段落的关键词,根据次要段落的所有关键词以及标准标题,生成第三内容关联权重;

其中,第三内容关联权重σ3的计算公式为: ;式中,Xj表示标准标题中第j个单词的词向量, 表示次要段落中最高词频单词的词向量,exp(·)表示指数函数,J表示标准标题的单词个数。

2.根据权利要求1所述的新闻文本分类方法,其特征在于,所述S13中,首段占比率zf的计算公式为: ;式中,P表示第一训练单词序列的单词个数,M表示标准首段文本内容的单词个数,J表示标准标题的单词个数。

3.根据权利要求1所述的新闻文本分类方法,其特征在于,所述S14中,标题与首段文本内容之间的第一内容关联权重σ1的计算公式为: ;式中,P表示第一训练单词序列的单词个数,Cp表示第一训练单词序列中第p个单词在标准首段文本内容的词频,zf表示首段占比率,Xp表示第一训练单词序列中第p个单词的词向量。

4.根据权利要求1所述的新闻文本分类方法,其特征在于,所述S23中,末段占比率zl的计算公式为: ;式中,Q表示第二训练单词序列的单词个数,N表示标准末段文本内容的单词个数,J表示标准标题的单词个数。

5.根据权利要求1所述的新闻文本分类方法,其特征在于,所述S24中,标准首段文本内容与标准末段文本内容之间的内容关联标签值b的计算公式为: ;式中,zf表示首段占比率,zl表示末段占比率,σ1表示标题与首段文本内容之间的第一内容关联权重。

6.根据权利要求1所述的新闻文本分类方法,其特征在于,所述S26中,标题与末段文本内容之间的第二内容关联权重σ2的计算公式为: ;式中,Q表示第二训练单词序列的单词个数,Cq表示第二训练单词序列中第q个单词在标准末段文本内容的词频,zl表示末段占比率,Xq表示第二训练单词序列中第q个单词的词向量,b表示标准首段文本内容与标准末段文本内容之间的内容关联标签值。

7.根据权利要求1所述的新闻文本分类方法,其特征在于,所述文本处理模型的目标函数Loss的表达式为: ;式中,O表示新闻文本的单词个数,ln(·)表示对数函数,σ1表示第一内容关联权重,σ2表示第二内容关联权重,σ3表示第三内容关联权重,r表示支持向量机的超参数。