利索能及
我要发布
收藏
专利号: 2021114095825
申请人: 和美(深圳)信息技术股份有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-03-03
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于文本分类的数据增强方法,其特征在于,包括:获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;

利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;

基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;

基于所述混淆矩阵,确定每种类别标签对应的增强概率;

针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;

用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集;

其中,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述基于所述混淆矩阵,确定每种类别标签对应的增强概率,包括:根据如下公式确定每种类别标签对应的增强概率:

, ,

其中, 表示第i种类别标签Li对应的增强概率,e为自然常数, 表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比, 表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。

2.根据权利要求1所述的方法,其特征在于,所述按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,包括:对真实类别标签为该种类别标签的每个样本,按照该种类别标签所对应的增强概率,确定该样本是否为待增强样本;或者,从真实类别标签为该种类别标签的样本中随机选出m个样本,作为待增强样本,其中,m=P×n,P表示该种类别标签所对应的增强概率,n表示所述训练数据集中真实类别标签为该种类别标签的样本的总数。

3.根据权利要求1所述的方法,其特征在于,所述对每个待增强样本进行相应的数据增强处理,包括:根据每个待增强的样本的真实类别标签、以及类别标签和数据增强方式之间的对应关系,确定每个待增强样本对应的数据增强方式;

按照每个待增强样本对应的数据增强方式,对每个待增强样本进行数据增强处理。

4.根据权利要求1至3任一项所述的方法,其特征在于,所述利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签,包括:利用所述训练数据集对所述文本分类模型进行训练;

将所述训练数据集中的每个样本输入训练好的文本分类模型,以获得每个样本对应的预测类别标签。

5.一种文本分类模型的训练方法,其特征在于,

基于权利要求1至4中任一项所述方法,获得增强后的训练数据集;

基于增强后的训练数据集,对所述文本分类模型进行训练。

6.一种用于文本分类的数据增强装置,其特征在于,包括:获取模块,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;

预测模块,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;

混淆模块,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;

增强概率确定模块,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;

增强模块,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;

替换模块,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集;

其中,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述基于所述混淆矩阵,确定每种类别标签对应的增强概率,包括:根据如下公式确定每种类别标签对应的增强概率:

, ,

其中, 表示第i种类别标签Li对应的增强概率,e为自然常数, 表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比, 表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。

7.一种文本分类模型的训练装置,其特征在于,包括:获取模块,用于获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;

预测模块,用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;

混淆模块,用于基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;

增强概率确定模块,用于基于所述混淆矩阵,确定每种类别标签对应的增强概率;

增强模块,用于针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;

替换模块,用于用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集;

训练模块,用于基于增强后的训练数据集,对所述文本分类模型进行训练;

其中,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述基于所述混淆矩阵,确定每种类别标签对应的增强概率,包括:根据如下公式确定每种类别标签对应的增强概率:

, ,

其中, 表示第i种类别标签Li对应的增强概率,e为自然常数, 表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比, 表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至5任一项所述方法的步骤。