1.一种基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,所述方法包括以下步骤:S1,将句子嵌入映射到概率分布空间以转化为概率分布,利用KL散度衡量句子嵌入之间的语义差异,调整嵌入向量的参数,减小相似句子对的KL散度的同时增加不相似句子的KL散度;基于KL散度优化后的损失函数进行反向传播,更新词向量参数,保存优化后的句子向量,生成词向量空间;
S2,基于生成的词向量空间,对基于RoBERTa的知识蒸馏嵌入模型进行训练,将深层模型中的丰富语义信息迁移至轻量化的学生模型;在训练过程中,定期验证学生模型在语义相似度任务上的性能指标,直至性能指标趋于稳定并满足预设要求,完成训练;
S3,采用训练完成的学生模型执行相似度文本挖掘任务。
2.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S1进一步包括:S11,加载Word2Vec预训练模型生成词向量;对输入的句子进行预处理,通过对句子中的所有词向量取平均或使用TF‑IDF加权平均的方式生成初始句子嵌入,初始句子嵌入用于反映句子的语义特征;
S12,采用softmax函数将句子嵌入映射到概率分布空间以转化为概率分布,每对句子嵌入生成的概率分布分别表示句子在语义空间中的定位;
S13,调整每个句子嵌入向量的参数,减小相似句子对的KL散度的同时增加不相似句子的KL散度;
S14,通过反向传播算法更新词向量参数,以最小化KL散度优化后的损失函数;每次迭代后计算整体损失,直至模型收敛,生成句子嵌入;保存优化后的句子向量,生成词向量空间。
3.根据权利要求2所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S11中,对输入的句子进行预处理的过程包括以下步骤:过滤无效或空白句子;针对其余句子,去除停用词、标点符号以及其他无意义的字符。
4.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S2进一步包括:S21,输入句子对至预训练的RoBERTa教师模型,获取其隐藏层输出,将计算输出的概率分布作为软标签;每个句子的软标签包含丰富的语义信息,用于指导学生模型的训练;
S22,初始化学生模型的结构,设定学生模型的包括层数、节点数以及激活函数在内的超参数,使其嵌入层大小和句子嵌入维度一致;使用TensorDataset将句子嵌入与RoBERTa教师模型的软标签组合为训练数据集;
S23,使用均方误差损失函数,将学生模型的预测结果与教师模型生成的软标签进行对齐,采用训练数据集对学生模型进行训练;在训练过程中,逐批加载数据,使用Adam优化器对学生模型的参数进行优化,使其输出趋向于与教师模型的表现一致;
S24,定期评估学生模型在语义相似度任务上的性能指标,直至性能指标趋于稳定并满足预设要求,完成训练,保存训练完成的学生模型的权重。
5.根据权利要求4所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S24中,所述性能指标包括训练过程的损失值、皮尔逊相关系数、斯皮尔曼相关系数和平均绝对误差中的一种或者多种。
6.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S3中,执行相似度文本挖掘任务的过程包括:设计余弦相似度计算模块,通过计算句子嵌入的点积并归一化,得到句子间的相似度值;
实施TF‑IDF加权余弦相似度,对词向量进行TF‑IDF加权处理,提升在长文本或句子中关键词重要性不同的情况的计算精度;
引入平滑逆频率相似度,去除句子嵌入中的主成分以减少高频词的干扰。
7.一种基于权利要求1‑6任一项所述方法的基于RoBERTa知识蒸馏的相似度文本挖掘系统,其特征在于,所述系统包括数据输入模块、句子嵌入生成模块、散度计算模块、知识蒸馏模块、输出与可视化模块和监控与评估模块;
所述数据输入模块用于对多种文本格式的输入数据进行清洗与预处理,并对预处理后的文本进行分词处理;
所述句子嵌入生成模块用于利用预训练的词向量模型生成高维的句子嵌入;
所述散度计算模块用于将句子嵌入映射到概率分布空间以转化为概率分布,利用KL散度衡量句子嵌入之间的语义差异,调整嵌入向量的参数,减小相似句子对的KL散度的同时增加不相似句子的KL散度;基于KL散度优化后的损失函数进行反向传播,更新词向量参数,保存优化后的句子向量,生成词向量空间;
所述知识蒸馏模块用于基于生成的词向量空间,对基于RoBERTa的知识蒸馏嵌入模型进行训练,将深层模型中的丰富语义信息迁移至轻量化的学生模型;在训练过程中,定期验证学生模型在语义相似度任务上的性能指标,直至性能指标趋于稳定并满足预设要求,完成训练;
所述输出与可视化模块用于直观展示相似度计算结果,并支持生成分析报告;
所述监控与评估模块用于实时监控系统性能,定期验证学生模型在语义相似度任务上的性能指标。
8.根据权利要求7所述的基于RoBERTa知识蒸馏的相似度文本挖掘系统,其特征在于,所述输出与可视化模块以包括表格、图形在内的可视化形式呈现相似度计算结果。
9.根据权利要求7所述的基于RoBERTa知识蒸馏的相似度文本挖掘系统,其特征在于,所述监控与评估模块收集包括响应时间、计算资源利用率在内的系统运行数据,评估系统的运行效率。