买专利、卖专利、专利购买、专利交易、专利出售、高企申报-用于文本分类的数据增强方法、装置及电子设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

用于文本分类的数据增强方法、装置及电子设备

￥17000

专利号： 2021114095825

申请人：和美(深圳)信息技术股份有限公司

专利类型：发明专利

专利状态：授权未缴费

更新日期：2025-03-03

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种用于文本分类的数据增强方法，其特征在于，包括：获取用于文本分类的训练数据集，所述训练数据集包括每个样本对应的真实类别标签；

利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签；

基于每个样本对应的真实类别标签和预测类别标签，获得表征所述文本分类模型分类准确度的混淆矩阵；

基于所述混淆矩阵，确定每种类别标签对应的增强概率；

针对所述训练数据集中的每种类别标签，按照该种类别标签所对应的增强概率，从真实类别标签为该种类别标签的样本中确定出待增强样本，并对每个待增强样本进行相应的数据增强处理；

用增强后的样本替换所述训练数据集对应的样本，以获得增强后的训练数据集；

其中，所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量，所述基于所述混淆矩阵，确定每种类别标签对应的增强概率，包括：根据如下公式确定每种类别标签对应的增强概率：

，，

其中，表示第i种类别标签Li对应的增强概率，e为自然常数，表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比，表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比，J为训练数据集包含的类别标签的数量。

2.根据权利要求1所述的方法，其特征在于，所述按照该种类别标签所对应的增强概率，从真实类别标签为该种类别标签的样本中确定出待增强样本，包括：对真实类别标签为该种类别标签的每个样本，按照该种类别标签所对应的增强概率，确定该样本是否为待增强样本；或者，从真实类别标签为该种类别标签的样本中随机选出m个样本，作为待增强样本，其中，m=P×n，P表示该种类别标签所对应的增强概率，n表示所述训练数据集中真实类别标签为该种类别标签的样本的总数。

3.根据权利要求1所述的方法，其特征在于，所述对每个待增强样本进行相应的数据增强处理，包括：根据每个待增强的样本的真实类别标签、以及类别标签和数据增强方式之间的对应关系，确定每个待增强样本对应的数据增强方式；

按照每个待增强样本对应的数据增强方式，对每个待增强样本进行数据增强处理。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签，包括：利用所述训练数据集对所述文本分类模型进行训练；

将所述训练数据集中的每个样本输入训练好的文本分类模型，以获得每个样本对应的预测类别标签。

5.一种文本分类模型的训练方法，其特征在于，

基于权利要求1至4中任一项所述方法，获得增强后的训练数据集；

基于增强后的训练数据集，对所述文本分类模型进行训练。

6.一种用于文本分类的数据增强装置，其特征在于，包括：获取模块，用于获取用于文本分类的训练数据集，所述训练数据集包括每个样本对应的真实类别标签；

预测模块，用于利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签；

混淆模块，用于基于每个样本对应的真实类别标签和预测类别标签，获得表征所述文本分类模型分类准确度的混淆矩阵；

增强概率确定模块，用于基于所述混淆矩阵，确定每种类别标签对应的增强概率；

增强模块，用于针对所述训练数据集中的每种类别标签，按照该种类别标签所对应的增强概率，从真实类别标签为该种类别标签的样本中确定出待增强样本，并对每个待增强样本进行相应的数据增强处理；