利索能及
我要发布
收藏
专利号: 2023102688763
申请人: 北京擎盾信息科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种大规模预训练语言模型的构建方法,其特征在于,包括:接收裁判文书;

按不同法律领域对所述裁判文书进行分类;

对分类结果执行预设的预处理并标注操作,得到多个类别的裁判文书训练集;

对分类结果执行预设的预处理操作包括:

将分类后得到的多个类别的裁判文书分为当事人信息、事实描述、法庭观点和判决结果四个部分;

筛选事实描述超过预设token阈值的裁判文书;

针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练,得到针对不同法律领域文本之间的差异性的预训练语言模型,使得模型能够有效识别特定法律领域的关键信息;

所述基于所述裁判文书训练集采用新的判决预测数据集CAIL‑Long,它包含了与现实中长度分布相同的民事和刑事案件,且每个刑事案件都附有罪名、相关法律和刑罚期限,每个民事案件都附有案由和相关法律。

2.根据权利要求1所述的构建方法,其特征在于,对分类结果执行预设的标注操作,得到多个类别的裁判文书训练集包括:基于启发式规则对预处理后得到的裁判文书进行自动标注,得到多个类别的裁判文书训练集。

3.根据权利要求1所述的构建方法,其特征在于,对分类结果执行预设的标注操作,得到多个类别的裁判文书训练集包括:对预处理后得到的裁判文书进行至少掩码语言、段落类型和发条三种标签的标注,得到多个类别的裁判文书训练集。

4.根据权利要求1所述的构建方法,其特征在于,针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练,得到针对特定法律领域的预训练语言模型之后还包括:接收待识别裁判文书;

将所述待识别裁判文书输入针对特定法律领域的预训练语言模型,得到特定法律领域的实体识别结果或罪名预测结果。

5.根据权利要求1所述的构建方法,其特征在于,所述预训练语言模型为利用Adam优化的Longformer语言模型。

6.一种大规模预训练语言模型的构建装置,其特征在于,包括:接收模块,用于接收裁判文书;

分类模块,用于按不同法律领域对所述裁判文书进行分类;

执行模块,用于对分类结果执行预设的预处理并标注操作,得到多个类别的裁判文书训练集;

对分类结果执行预设的预处理操作包括:

将分类后得到的多个类别的裁判文书分为当事人信息、事实描述、法庭观点和判决结果四个部分;

筛选事实描述超过预设token阈值的裁判文书;

训练模块,用于针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练,得到针对不同法律领域文本之间的差异性的预训练语言模型,使得模型能够有效识别特定法律领域的关键信息;

所述基于所述裁判文书训练集采用新的判决预测数据集CAIL‑Long,它包含了与现实中长度分布相同的民事和刑事案件,且每个刑事案件都附有罪名、相关法律和刑罚期限,每个民事案件都附有案由和相关法律。

7.根据权利要求5所述的构建装置,其特征在于,还包括:接收待识别裁判文书;

将所述待识别裁判文书输入针对特定法律领域的预训练语言模型,得到特定法律领域的关键信息。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4中任一项所述的大规模预训练语言模型的构建方法。

9.一种电子装置,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4中任一项所述的大规模预训练语言模型的构建方法。