利索能及
我要发布
收藏
专利号: 2019112221188
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-03
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于专业领域的分词方法,其特征在于,所述方法包括:

获取待分词文本中各第一字符的第一字向量;

针对所述待分词文本中的每个第一字符,将该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于1;

将所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值,其中,该第一字符的切分预测值用于表示该第一字符与其前一个字符切分的概率值;

根据多个所述切分预测值,对所述待分词文本进行分词。

2.根据权利要求1所述的方法,其特征在于,所述预设的多任务学习模型通过以下方式来构建:获取各训练文本中各第二字符的第二字向量;

针对各所述训练文本中的每个第二字符,将该第二字符的第二字向量以及多个第二邻近字符的第二字向量共同作为该第二字符的第二特征向量,其中,所述多个第二邻近字符包括所述训练文本中、与该第二字符之间间隔的字符数小于或等于所述第一预设阈值的字符;

针对各所述训练文本中的每个第二字符,分别将该第二字符的第二特征向量作为训练样本输入至初始的多任务学习模型中的、与该第二字符对应的初始子模型中进行训练,得到所述预设的多任务学习模型。

3.根据权利要求1所述的方法,其特征在于,所述多任务学习模型的目标函数基于混合范数的正则化约束,通过以下公式确定:其中,L为字符集合包含的字符数量,所述字符集合由所述待分词文本中的各所述第一字符构成;wl为所述字符集合中、第l个第一字符对应的子模型的模型参数;n为所述待分词文本中包含第l个第一字符的数量;xli为n个第l个第一字符中的第i个字符的第一特征向量;yli为n个第l个字符中的第i个字符的切分预测值; 为经验损失函数;W为所述多任务学习模型的参数矩阵,且W=[w1,...,wL];||W||1,1为各所述第一字符之间的独特性约束,且为所述参数矩阵W中所有元素的和;||W||2,1为各第一字符间的共性约束,且λ为正则项系数; 为各所述第一字符之间的独特性约束||W||1,1的权重。

4.根据权利要求1所述的方法,其特征在于,所述获取待分词文本中各第一字符的第一字向量,包括:通过预设的BERT模型,获取待分词文本中各第一字符的第一字向量。

5.根据权利要求4所述的方法,其特征在于,所述预设的BERT模型通过以下方式来构建:基于通用领域的第一文本语料库,训练初始BERT模型,得到中间BERT模型;

基于所述专业领域的第二文本语料库,训练所述中间BERT模型,以得到所述预设的BERT模型。

6.根据权利要求1所述的方法,其特征在于,所述根据多个所述切分预测值,对所述待分词文本进行分词,包括:针对所述待分词文本中、除段落首字符外的每个第一字符,根据该第一字符的切分预测值与第二预设阈值的比较结果,确定是否将所述第一字符与其前一个字符切分开。

7.根据权利要求1‑6中任一项所述的方法,其特征在于,所述专业领域为医疗领域,所述待分词文本为医疗文本数据。

8.一种用于专业领域的分词装置,其特征在于,所述装置包括:

第一字向量获取模块,用于获取待分词文本中各第一字符的第一字向量;

第一特征向量确定模块,用于针对所述待分词文本中的每个第一字符,将所述第一字向量获取模块获取到的该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于

1;

切分预测值确定模块,用于将所述第一特征向量确定模块得到的所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值,其中,该第一字符的切分预测值用于表示该第一字符与其前一个字符切分的概率值;

分词模块,用于根据所述切分预测值确定模块得到的多个所述切分预测值,对所述待分词文本进行分词。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1‑7中任一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1‑7中任一项所述方法的步骤。