利索能及
我要发布
收藏
专利号: 2023105180207
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多特征融合SKIPGRAM模型和生成网络的诉辩焦点识别方法,其特征在于:包括如下步骤:

步骤1:将裁判文书按照标点符号进行切分,将切分之后的语句存放在文本语句列表中,得到文本语句列表S={S1,S2,S3,……,ST},其中,S1到ST表示切分完成之后的第1条语句到第T条语句,T为整数;

步骤2:将文本语句列表S={S1,S2,S3,……,ST}中每条语句依次放入到分类网络中,得到每条语句对应的预先定义好的句子分类类别LY;

步骤3:提取裁判文书所属的案件类别标签LL;

步骤4:依次将特征标签LY和LL添加到每条语句的后面进行融合,得到融合后的语句,将融合后的语句组成新的文本语句列表S′={S′1,S′2,S′3,…,S′i,…,S′T};其中,S′i为融合后的第i条语句,S′i={Si,LY,LL};

Si表示原本的第i条语句,LY为句子分类类别,LL为案件类别标签;

步骤5:将新的文本语句列表放入到SKIPGRAM‑BILSTM‑Attention诉辩焦点识别网络中进行训练预测,得到新的文本语句列表中每个语句的概率,将概率最高的两个语句作为诉辩双方争议的焦点;

所述步骤5,包括如下步骤:

步骤5.1:将每个句子S′i=(L1,L2,L3,......,LT,LY,LL),通过SKIPGRAM模型层的词向量编码器转换为编码层向量其中, 为句子S′i中第

i个词Li的编码之后的输出向量化表示, 为句子S′i中句子分类类别LY的向量化表示,为句子S′i中案件类别标签LL的向量化表示;

步骤5.2:将句子S′i中每一个词作为中心词l,设置中心词l的上下文出现周围词c的集合为Dp,设置中心词l的上下文不出现周围词c的集合Dn;

步骤5.3:根据中心词l对应的向量化表示vl、周围词c对应的向量化表示v′c、句子分类类别LY的向量化表示 和案件类别标签LL的向量化表示 计算目标函数L;

步骤5.4:遍历句子S′i中每一个词作为中心词l,得到每一个词对应的目标函数L,计算每一个词对应的目标函数L的梯度,当目标函数L的梯度最大时,目标函数L中所有周围词c的对应的向量化表示v′c作为句子S′i中第i个词Li最优向量化表示(e1,e2,...ei...,eT),将句子S′i中向量化表示 作为句子分类类别LY、案件类别标签LL的最优向量化表示(eY,eL),得到句子S′i最优向量化表示Ei=[e1,e2,...ei...,eT,eY,eL];

步骤5.6:重复步骤5.1到步骤5.4,SKIPGRAM模型层输出每个句子的向量化表示E=[e1,e2,...ei...,eT,eY,eL];

步骤5.7:将每个句子的向量化表示E中的词的最优向量化表示ei分别输入双向LSTM网络中进行训练,得到前向和后向的输出分量化表示 计算如下所示:其中, 和 分别表示正向和逆向的LSTM神经网络, 和 分别表示对应的正向和逆向LSTM网络的词向量化输出; 为正向 网络中词的向量化表示输出 的前一时刻的词的向量化表示输入, 为反向 网络中词的向量化表示输入 的后一时刻的词的向量化表示输出;

步骤5.8:通过正向 网络将E=[e1,e2,...ei...,eT,eY,eL]转换为通过反向 网络将E=[e1,e2,...ei...,eT,eY,eL]转换为步骤5.9:正向输出的向量化表示 和逆向输出的向量化表示 和最优向量化表示ei拼接作为第i个词在句子中的隐状态表示hi,拼接公式如下所示:步骤5.10:通过拼接hi序列得到BILSTM模型层输出的句子的隐状态表示H,计算公式如下所示:H=[h1;h2;…;hn];

步骤5.11:句子的隐状态表示H输入Attention层,输出注意力权重矩阵A,计算公式如下所示:T

A=softmax(Ws2tanh(Ws1H));

T

其中,Ws1和Ws2是注意力层的参数,H为BILSTM层输出的句子的向量化表示的转置,tanh(*)表示双曲正切函数;

步骤5.12:将句子的隐状态表示H和注意力权重矩阵A进行相乘,得到句子的矩阵Z,计算公式如下所示:Z=AH;

步骤5.13:依次将每个句子的矩阵Z作为全连接层的输入,输出每个句子的概率 将概率最高的两个语子作为诉辩双方争议的焦点。

2.根据权利要求1所述的基于多特征融合SKIPGRAM模型和生成网络的诉辩焦点识别方法,其特征在于:所述步骤1还包括:将原始的文本语句列表S={S1,S2,S3,……,ST}依次放入到CRF网络,去除掉无用的词,得到处理之后的文本 利用处理之后的文本 重复步骤2‑步骤5,得到诉辩双方争议的焦点。

3.根据权利要求2所述的基于多特征融合SKIPGRAM模型和生成网络的诉辩焦点识别方法,其特征在于:全连接层采用softmax激活函数求出各个句子对应的概率,概率计算公式如下所示:其中,W和b分别是全连接层的权重矩阵和偏置。

4.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1‑3中任一所述的一种基于多特征融合SKIPGRAM模型和生成网络的诉辩焦点识别方法。

5.一种计算机设备,其特征在于:包括:

存储器,用于存储指令;

处理器,用于执行所述指令,使得所述计算机设备执行如权利要求1‑3中任一所述的一种基于多特征融合SKIPGRAM模型和生成网络的诉辩焦点识别方法。