利索能及
我要发布
收藏
专利号: 201910740751X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种序列标注方法,所述方法包括:

当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;

将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到多组候选词语以及每组所述候选词语对应的词语标签,所述候选词语为所述待标注序列中相邻字符之间组成词语的集合;

将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;

确定组成所述候选词语的字符,获取组成所述候选词语的字符对应的特征向量;

获取组成所述候选词语的字符对应的所属字符标签的权重向量;

根据各字符的所述特征向量与所述权重向量,测算得到所述候选词语的第一配对指标;所述第一配对指标是确定所述候选词语是否合理的指标;所述权重向量由训练所述序列标注神经网络时所得;

基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;所述第二配对指标是用于标识通过各所述候选词语组成的对应候选标注序列是否为常用序列或正确序列的得分,通过得分数值的高低确定所述候选标注序列正确合理的概率;

将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。

2.根据权利要求1所述的方法,其特征在于,所述将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量,包括:从预设的词向量表中获取所述待标注序列中各字符对应的词向量表示;

利用预设的神经网络将各所述字符对应的词向量表示进行转换,得到对应的特征词向量。

3.根据权利要求1所述的方法,其特征在于,所述基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标,包括:确定组成所述候选标注序列的候选词语;

获取所述候选词语对应的转移参数;

基于所述候选词语对应的所述第一配对指标和转移参数,测算得到所述候选标注序列的第二配对指标。

4.根据权利要求1所述的方法,其特征在于,所述将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列之后,还包括:将所述特征词向量输入预设的条件随机场模型,以对所述待标注序列进行标注,得到第二标注序列;

利用预设解码算法计算所述第一标注序列和所述第二标注序列的损失值,从所述第一标注序列和所述第二标注序列中确定损失值最小的标注序列作为最终的标注结果。

5.根据权利要求4所述的方法,其特征在于,所述利用预设解码算法计算所述第一标注序列和所述第二标注序列的损失值,从所述第一标注序列和第二标注序列中确定损失值最小的标注序列作为最终的标注结果的步骤,包括:基于对数似然函数计算所述第一标注序列和第二标注序列对应的第一损失值和第二损失值;

根据所述第一损失值和所述第二损失值,从所述第一标注序列和第二标注序列中确定最终的标注结果。

6.一种序列标注装置,其特征在于,所述装置包括:

转换模块,用于当接收携带有待标注序列的序列标注请求时,将所述待标注序列中的各字符进行向量转换,得到字符对应的特征词向量;

分词模块,用于将所述特征词向量输入预设的序列标注神经网络,以对所述待标注序列进行分词,得到候选词语以及所述候选词语对应的词语标签,所述候选词语为所述待标注序列中相邻字符之间组成词语的集合;

组合模块,用于将所述词语标签分别与所述候选词语中各字符的位置进行组合,得到所述字符在所述候选词语中的所属字符标签;

测算模块,用于确定组成所述候选词语的字符,获取组成所述候选词语的字符对应的特征向量;获取组成所述候选词语的字符对应的所属字符标签的权重向量;根据各字符的所述特征向量与所述权重向量,测算得到所述候选词语的第一配对指标;所述第一配对指标是确定所述候选词语是否合理的指标;所述权重向量由训练所述序列标注神经网络时所得;

所述测算模块还用于基于每组所述候选词语对应的所述第一配对指标,测算候选标注序列的第二配对指标;所述候选标注序列是将至少两组所述候选词语进行排列组合得到;

所述第二配对指标是用于标识通过各所述候选词语组成的对应候选标注序列是否为常用序列或正确序列的得分,通过得分数值的高低确定所述候选标注序列正确合理的概率;

识别模块,用于将数值最大的所述第二配对指标对应的候选标注序列识别为第一标注序列。

7.根据权利要求6所述的装置,其特征在于,所述转换模块还用于,从预设的词向量表中获取所述待标注序列中各字符对应的词向量表示;

利用预设的神经网络将各所述字符对应的词向量表示进行转换,得到对应的特征词向量。

8.根据权利要求6所述的装置,其特征在于,所述测算模块还用于,确定组成所述候选标注序列的候选词语;获取所述候选词语对应的转移参数;基于所述候选词语对应的所述第一配对指标和转移参数,测算得到所述候选标注序列的第二配对指标。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。