1.一种基于大数据的互联网新闻内容自动生成方法,其特征在于,包括:获取新闻文本数据;对新闻文本数据进行清洗;将清洗后的新闻文本数据划分为无标签文本和有标签文本;将无标签文本数据输入到基于Transformer的大规模模型中进行预训练,将有标签文本输入到训练好的大规模模型中进行参数微调处理,得到完善的新闻文本内容生成模型;获取新闻关键词,将新闻关键词输入到新闻文本内容生成模型中,并采用动态规划的文本生成搜索策略得到生成的新闻播报内容;
对基于Transformer的大规模模型中进行预训练包括:
S1:将有标签数据集分为训练集与测试集,其中训练集用于对模型进行任务训练,测试集用于对训练的模型进行测试;
S2:对无标签数据集中的文本提取TopK条关键词和关键句;
S3:将无标签数据集中的TopK条关键词和关键句输入到基于Transformer的大规模模型中,进行MSP、TCR、TCM三种预训练任务;
进行MSP预训练任务的过程包括:获取TopK条句子包括Sentence1,....Sentencek;将TopK条句子标记为[MASK];将TopK条句子进行打标,得到[Sentence1,[SEP],Sentence2,[SEP],...[SEP],Sentencek];将打标后的数据输入到MASK中进行掩码,将掩码后的文本输入到入tokenizer中进行词向量嵌入层编码,将编码后的数据输入到Transformer的编码层和解码层中,得到模型输出的logits,通过输出的logits与真实label计算模型的损失函数;
进行TCR预训练任务的过程包括:将训练数据整合为
[Token1,[SEP],Token2,[SEP],...,Tokenk],并将样本原文视为标签;将整合后的数据和标签输入到tokenizer中进行词向量嵌入层编码,将编码后的数据分别送入Transformer的编码层与解码层中,得到模型输出的logits,通过输出的logits与真实label计算TCR预训练任务的损失函数;
进行TCM预训练任务的过程包括:取无标签数据中的一半样本,将原文中关键词进行[MASK],同时将该样本的关键词与原文拼接为新的训练数据[Token1,[SEP],Token2,[SEP],...,Content],将其输入到tokenizer进行词向量嵌入层编码,将编码后的数据输入到Transformer的编码层中,得到解码后的数据,对该数据进行打标为真样本;取无标签数据中的另一半样本,将原文中关键词部分进行[MASK],同时将所有取出样本的关键词打乱后取出K个互不相同关键词,将选出的关键词与原文拼接为新的训练数据[Token1,[SEP],Token2,[SEP],...,Content],将其送入tokenizer进行词向量嵌入层编码,将编码后的数据输入到Transformer的编码层中进行解密,对解码后的样本标记为假样本;取出最后一层编码层的Last_hidden_state,做平均池化后经过全连接层进行二分类,并计算二分类交叉熵损失函数;
S4:计算三种训练任务的损失函数,并采用权重分配方法对损失函数进行融合,得到模型损失函数;
S5:不断调整模型的参数,当损失函数收敛时完成模型的训练。
2.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,对新闻文本数据进行清洗包括将文本数据进行非法词语清洗及噪声数据清洗。
3.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,提取TopK条关键词和关键句的过程包括:步骤1:将无标签与有标签文本数据输入到Word2Vector模型中,训练出新闻文本领域的词向量模型;
步骤2:将无标签文本语料送入训练后的Word2Vector模型中,得到每个样本的段落词向量矩W,将所有段落词向量矩W求和后取平均,得到样本段落向量C;
步骤3:将无标签文本语料按照标准标点符号分割,得到每个样本的句子集S,将每个句子输入到Word2Vector模型中,得到的词向量平均的句子向量Vector_S,采用余弦相似度计算样本段落向量C与句子向量Vector_S的相似度得分,并筛选出与原文本相似度最高的K条互不相同的句子。
4.根据权利要求1所述的一种基于大数据的互联网新闻内容自动生成方法,其特征在于,采用动态规划的文本生成搜索策略得到生成的新闻播报内容的过程包括:步骤1:设动态规划DP数组、符串Sentence数组、文本搜索解码的最长长度Max_len以及迭代Max_len轮;初始时将Dp[CLS]的概率值设为1;其中,Dpi表示以Tokeni为结尾的解码文本的最大连乘概率值,Sentencei表示以Tokeni为结尾的解码文本在连乘概率达到最大时的解码文本情况;
步骤2:枚举Dp数组,当前枚举到的为Dpi,若枚举到[END],则跳过这次枚举,将Decoder_input_ids编码为Sentencei,并输入到Decoder中,将样本原文编码输入到Encoder中;
步骤3:从步骤2中得到当前预测每个Token概率值logits,同时枚举所有Token情况,设当前枚举到的为Tokenj,则当前连乘概率为prob=logitsj*Dpi,将prob与Dpj做比较,如果prob大于Dpj,则更新Dpj且将Sentencej设为Sentencei,并与Tokenj的连接;
步骤4:完成一轮迭代,迭代次数加1;
步骤5:完成Max_len轮迭代,将Sentence[END]作为解码文本输出结果。