买专利、卖专利、专利购买、专利交易、专利出售、高企申报-大规模预训练语言模型的构建方法、装置、存储介质及电子装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

大规模预训练语言模型的构建方法、装置、存储介质及电子装置

￥21600

专利号： 2023102688763

申请人：北京擎盾信息科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种大规模预训练语言模型的构建方法，其特征在于，包括：接收裁判文书；

按不同法律领域对所述裁判文书进行分类；

对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；

对分类结果执行预设的预处理操作包括：

将分类后得到的多个类别的裁判文书分为当事人信息、事实描述、法庭观点和判决结果四个部分；

筛选事实描述超过预设token阈值的裁判文书；

针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对不同法律领域文本之间的差异性的预训练语言模型，使得模型能够有效识别特定法律领域的关键信息；

所述基于所述裁判文书训练集采用新的判决预测数据集CAIL‑Long，它包含了与现实中长度分布相同的民事和刑事案件，且每个刑事案件都附有罪名、相关法律和刑罚期限，每个民事案件都附有案由和相关法律。

2.根据权利要求1所述的构建方法，其特征在于，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：基于启发式规则对预处理后得到的裁判文书进行自动标注，得到多个类别的裁判文书训练集。

3.根据权利要求1所述的构建方法，其特征在于，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：对预处理后得到的裁判文书进行至少掩码语言、段落类型和发条三种标签的标注，得到多个类别的裁判文书训练集。

4.根据权利要求1所述的构建方法，其特征在于，针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练，得到针对特定法律领域的预训练语言模型之后还包括：接收待识别裁判文书；

将所述待识别裁判文书输入针对特定法律领域的预训练语言模型，得到特定法律领域的实体识别结果或罪名预测结果。

5.根据权利要求1所述的构建方法，其特征在于，所述预训练语言模型为利用Adam优化的Longformer语言模型。

6.一种大规模预训练语言模型的构建装置，其特征在于，包括：接收模块，用于接收裁判文书；

分类模块，用于按不同法律领域对所述裁判文书进行分类；

执行模块，用于对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；

对分类结果执行预设的预处理操作包括：

将分类后得到的多个类别的裁判文书分为当事人信息、事实描述、法庭观点和判决结果四个部分；

筛选事实描述超过预设token阈值的裁判文书；

训练模块，用于针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对不同法律领域文本之间的差异性的预训练语言模型，使得模型能够有效识别特定法律领域的关键信息；

7.根据权利要求5所述的构建装置，其特征在于，还包括：接收待识别裁判文书；

将所述待识别裁判文书输入针对特定法律领域的预训练语言模型，得到特定法律领域的关键信息。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4中任一项所述的大规模预训练语言模型的构建方法。

9.一种电子装置，包括：存储器和处理器，其特征在于，所述存储器中存储有计算机程序，其中，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4中任一项所述的大规模预训练语言模型的构建方法。

推荐专利

多语种语音识别模型训练方法、装置、设备及存储介质

发明专利

面议

模型训练方法、语音识别方法、装置、设备及存储介质

发明专利

面议

预测模型训练方法、装置、电子设备及存储介质

发明专利

面议

语义分割模型的训练方法和装置、电子设备、存储介质

发明专利

￥9000

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们