利索能及
我要发布
收藏
专利号: 2023104853337
申请人: 芽米科技(广州)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-09-11
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大数据的法律判决舆情分类方法,其特征在于,包括:获取法律判决文本数据和待分类的舆情文本数据,将法律判决文本数据和待分类的舆情文本数据输入到训练好的文本分类模型中,得到舆情文本数据的分类结果;

文本分类模型的训练过程包括:

S1:获取法律判决文本数据和带标签的舆情文本数据;

S2:根据舆情文本数据提取舆情文本的词级特征向量和句级特征向量;根据法律判决文本数据提取法律判决文本的词级特征向量和句级特征向量;

S3:采用多头注意力机制对舆情文本的词级特征向量和法律判决文本的词级特征向量进行处理,得到舆情文本的交叉词级特征向量;

S4:对舆情文本的句级特征向量作聚类处理,得到正向舆情聚类中心和非正向舆情聚类中心;对舆情文本的句级特征向量作聚类处理的过程包括:S41:将法律判决文本的句级特征向量作为正向舆情聚类中心,并随机初始化与正向舆情聚类中心维度相同的非正向舆情聚类中心;

S42:计算每个舆情文本的句级特征向量与两个聚类中心的距离,将句级特征向量归类到距离最小的类别;计算舆情文本的句级特征向量与聚类中心距离的公式为:其中,distance表示舆情文本的句级特征向量与聚类中心的距离,hi表示句级特征向量第i个维度的值,ci表示聚类中心第i个维度的值,d表示句级特征向量的维度;

S43:更新非正向舆情聚类中心并返回步骤S42;直到非正向舆情聚类中心不再发生变化;更新非正向舆情聚类中心的过程包括:计算所有被归类到非正向舆情的的句级特征向量的聚类中心,将该聚类中心作为新的非正向舆情聚类中心,计算新的非正向舆情聚类中心的公式为:其中, 表示新的非正向舆情聚类中心,m表示所有被归类到非正向舆情的句级特征向量个数,Hid表示所有被归类到非正向舆情的句级特征向量集合H中第i个向量在第d个维度上的值;

S5:将交叉词级特征向量输入到全连接神经网络进行处理,得到舆情文本的低维特征;

根据低维特征对舆情文本进行分类,得到舆情文本的分类结果;

S6:对低维特征和两个聚类中心作对比学习并计算对比学习损失;根据标签和分类结果计算全连接分类损失;根据对比学习损失函数与全连接分类损失计算模型总损失;

S7:根据总损失调整模型参数,得到训练好的文本分类模型。

2.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法,其特征在于,所述步骤S2具体包括:S21:采用预训练的Bert模型对舆情文本数据进行处理,得到舆情文本的词级特征向量和句级特征向量;

S22:查询预训练的Bert模型的vocab词表,得到法律判决文本的词级特征向量;将词级特征向量通过全连接网络获得法律判决文本的句级特征向量。

3.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法,其特征在于,所述步骤S3具体包括:将舆情文本的词级特征向量分别输入到不同的线性层进行处理,得到K矩阵和V矩阵;将法律判决文本的词级特征向量输入到线性层进行处理,得到Q矩阵;根据K矩阵、V矩阵和Q矩阵得到交叉词级特征向量。

4.根据权利要求3所述的一种基于大数据的法律判决舆情分类方法,其特征在于,计算交叉词级特征向量的公式为:其中,M表示交叉词级特征向量,dk表示多头注意力机制中每个头的维度,E表示单位矩阵,softmax()表示softmax激活函数;K和V分别表示舆情文本的词级特征向量分别输入到不同的线性层进行处理得到的K矩阵和V矩阵;Q表示法律判决文本的词级特征向量输入到线性层进行处理得到的Q矩阵。

5.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法,其特征在于,计算对比学习损失的公式为:其中,l4表示对比学习损失,Si表示舆情文本中第i条舆情评论的低维特征向量,C1表示正向舆情聚类中心, 表示非正向舆情聚类中心,sim()表示求余弦相似度,min()表示求最小值,b表示每批次的舆情评论数量, 表示第i条舆情评论的预测结果。

6.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法,其特征在于,计算全连接分类损失的公式为:其中,l2表示全连接分类损失,yi表示第i条舆情评论的标签,表示第i条舆情评论的预测概率值。