1.一种基于半监督学习的跨领域情感分类方法,其特征在于,所述分类方法包括如下步骤:
获取带有标签的源域数据集和不带标签的目标域数据集;
将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取,获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果;
根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果,利用多层KL散度计算公式,计算每个目标域数据与每个源域数据的多层KL散度;
依次比较每个目标域数据与源域数据集中每个源域数据的多层KL散度的最小值与差异阈值的大小,当目标域数据与源域数据集中每个源域数据的多层KL散度的最小值小于差异阈值时,将所述目标域数据的伪标签确定为多层KL散度的最小值对应的源域数据的标签;
判断所述目标域数据中带有伪标签的目标域数据的数量是否大于分类数量阈值,获得第一判断结果;
若所述第一判断结果表示否,则利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数,返回步骤“将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取,获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果”;
若所述第一判断结果表示是,则输出带有伪标签的目标域数据集。
2.根据权利要求1所述的基于半监督学习的跨领域情感分类方法,其特征在于,所述多层KL散度计算公式为:
loss_kl=αKatt+(1‑α)Kcnn+γK+Ks+Kt;
其中,loss_kl表示目标域数据与源域数据的多层KL散度,Katt表示源域数据的卷积层特征提取结果与目标域数据的卷积层特征提取结果的KL散度,Kcnn表示源域数据的注意力层特征提取结果与目标域数据的注意力层特征提取结果的KL散度,Ks表示源域数据的卷积层特征提取结果与注意力层提取结果的KL散度,Kt表示目标域数据的卷积层特征提取结果和注意力层提取结果的KL散度,K表示源域数据的卷积层特征提取结果和注意力层提取结果的融合特征与目标域数据的卷积层特征提取结果和注意力层提取结果的融合特征的KL散度,α和γ分别表示第一权重系数和第二权重系数。
3.根据权利要求1所述的基于半监督学习的跨领域情感分类方法,其特征在于,利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数,具体包括:从所述源域数据集和目标域数据集的带有伪标签的目标域数据中获取置信度较高的前n个源域数据构建标准数据集;
根据所述标准数据集,利用所述卷积层、所述注意力层和多层KL散度计算公式,对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类,获得分类结果;
根据所述分类结果,分别计算源域数据损失、目标域数据损失和集成损失;
判断所述源域数据损失、所述目标域数据损失和所述集成损失是否均小于损失阈值,获得第二判断结果;
若所述第二判断结果表示否,则更新所述卷积层和所述注意力层的参数,及所述多层KL散度计算公式中的权重系数,返回步骤“根据所述标准数据集,利用所述卷积层、所述注意力层和多层KL散度计算公式,对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类,获得分类结果”;
若所述第二判断结果表示是,则结束训练。
4.根据权利要求3所述的基于半监督学习的跨领域情感分类方法,其特征在于,所述根据所述标准数据集,利用所述卷积层、所述注意力层和多层KL散度计算公式,对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类,获得分类结果,具体包括:
将标准数据集中的每个标准数据分别输入所述卷积层和所述注意力层进行特征提取,获得所述标准数据集中每个标准数据的特征提取结果;
选取源域数据集中的任意一个源域数据或目标域数据集中任意一个带有伪标签的目标域数据,作为待分类数据;
将所述待分类数据输入所述卷积层和所述注意力层进行特征提取,获得所述待分类数据的特征提取结果;
根据所述标准数据集中每个标准数据的特征提取结果与所述待分类数据的特征提取结果,利用所述多层KL散度计算公式,计算所述待分类数据与所述标准数据集中每个标准数据的多层KL散度;
获取多层KL散度的最小值对应的所述标准数据集中的标准数据的标签,作为所述待分类数据的分类结果。
5.根据权利要求3所述的基于半监督学习的跨领域情感分类方法,其特征在于,所述根据所述分类结果,分别计算源域数据损失、目标域数据损失和集成损失,具体包括:根据所述分类结果,采用交叉熵损失函数,分别计算源域数据损失、目标域数据损失和集成损失。
6.一种基于半监督学习的跨领域情感分类系统,其特征在于,所述分类系统包括:数据集获取模块,用于获取带有标签的源域数据集和不带标签的目标域数据集;
特征提取模块,用于将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取,获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果;
多层KL散度计算模块,用于根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果,利用多层KL散度计算公式,计算每个目标域数据与每个源域数据的多层KL散度;
伪标签确定模块,用于依次比较每个目标域数据与源域数据集中每个源域数据的多层KL散度的最小值与差异阈值的大小,当目标域数据与源域数据集中每个源域数据的多层KL散度的最小值小于差异阈值时,将所述目标域数据的伪标签确定为多层KL散度的最小值对应的源域数据的标签;
第一判断模块,用于判断所述目标域数据中带有伪标签的目标域数据的数量是否大于分类数量阈值,获得第一判断结果;
训练模块,用于若所述第一判断结果表示否,则利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数,返回步骤“将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取,获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果”;
分类结果输出模块,用于若所述第一判断结果表示是,则输出带有伪标签的目标域数据集。
7.根据权利要求6所述的基于半监督学习的跨领域情感分类系统,其特征在于,所述多层KL散度计算公式为:
loss_kl=αKatt+(1‑α)Kcnn+γK+Ks+Kt;
其中,loss_kl表示目标域数据与源域数据的多层KL散度,Katt表示源域数据的卷积层特征提取结果与目标域数据的卷积层特征提取结果的KL散度,Kcnn表示源域数据的注意力层特征提取结果与目标域数据的注意力层特征提取结果的KL散度,Ks表示源域数据的卷积层特征提取结果与注意力层提取结果的KL散度,Kt表示目标域数据的卷积层特征提取结果和注意力层提取结果的KL散度,K表示源域数据的卷积层特征提取结果和注意力层提取结果的融合特征与目标域数据的卷积层特征提取结果和注意力层提取结果的融合特征的KL散度,α和γ分别表示第一权重系数和第二权重系数。
8.根据权利要求6所述的基于半监督学习的跨领域情感分类系统,其特征在于,所述训练模块,具体包括:
标准数据集构建子模块,用于从所述源域数据集和目标域数据集的带有伪标签的目标域数据中获取置信度较高的前n个源域数据构建标准数据集;
分类子模块,用于根据所述标准数据集,利用所述卷积层、所述注意力层和多层KL散度计算公式,对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类,获得分类结果;
损失计算子模块,用于根据所述分类结果,分别计算源域数据损失、目标域数据损失和集成损失;
第二判断子模块,用于判断所述源域数据损失、所述目标域数据损失和所述集成损失是否均小于损失阈值,获得第二判断结果;
参数更新子模块,用于若所述第二判断结果表示否,则更新所述卷积层和所述注意力层的参数,及所述多层KL散度计算公式中的权重系数,返回步骤“根据所述标准数据集,利用所述卷积层、所述注意力层和多层KL散度计算公式,对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类,获得分类结果”;
结束训练子模块,用于若所述第二判断结果表示是,则结束训练。
9.根据权利要求8所述的基于半监督学习的跨领域情感分类系统,其特征在于,所述分类子模块,具体包括:
第一特征提取单元,用于将标准数据集中的每个标准数据分别输入所述卷积层和所述注意力层进行特征提取,获得所述标准数据集中每个标准数据的特征提取结果;
待分类数据选取单元,用于选取源域数据集中的任意一个源域数据或目标域数据集中任意一个带有伪标签的目标域数据,作为待分类数据;
第二特征提取单元,用于将所述待分类数据输入所述卷积层和所述注意力层进行特征提取,获得所述待分类数据的特征提取结果;
多层KL散度计算单元,用于根据所述标准数据集中每个标准数据的特征提取结果与所述待分类数据的特征提取结果,利用所述多层KL散度计算公式,计算所述待分类数据与所述标准数据集中每个标准数据的多层KL散度;
分类结果确定单元,用于获取多层KL散度的最小值对应的所述标准数据集中的标准数据的标签,作为所述待分类数据的分类结果。
10.根据权利要求8所述的基于半监督学习的跨领域情感分类系统,其特征在于,所述损失计算子模块,具体包括:
损失计算单元,用于根据所述分类结果,采用交叉熵损失函数,分别计算源域数据损失、目标域数据损失和集成损失。