买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种利用部分标注集的自训练神经网络分词模型

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种利用部分标注集的自训练神经网络分词模型

￥14400

专利号： 202010159438X

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种利用部分标注集的自训练神经网络分词方法，其特征在于包括如下步骤：步骤(1)利用基于词典的字符串匹配算法，从无标注集中获取部分标注集；

步骤(2)通过改进损失函数，利用有标注集和部分标注集共同训练基于双向长短期记忆网络Bidirectional Long Short Term Memory，即BiLSTM的中文分词模型；

步骤(3)利用基于BiLSTM的中文分词模型对部分标注集进行分词标注；

步骤(4)计算每个序列的分词准确率置信度和差异置信度；

步骤(5)将满足置信度条件的部分标注集转为有标注集；

步骤(6)迭代步骤(2)-步骤(5)直到P次，P是一个人为设定的终止迭代条件；

步骤(1)中利用基于词典的字符串匹配算法，从无标注集中获取部分标注集的过程如下：

1.1利用词典最大正向匹配算法，将匹配到的领域特殊词汇以及长度超过4的词汇打上确定标注；

1.2对于一个文本序列，根据其中确定标注的词汇，划分出多个未切分文本片段；

1.3对于每个未切分文本片段中的第i个汉字ci，计算它的n-grams窗口词汇；

1.4利用窗口词汇给未标注汉字ci打上部分确定标注；

步骤(2)中通过改进损失函数，利用有标注集和部分标注集共同训练基于双向长短期记忆网络的中文分词模型的过程如下：

2.1利用有标注集训练基于BiLSTM的中文分词模型，交叉熵损失函数表示如下：其中，yi表示输入序列的第i个确定标注，表示模型对输入序列的第i个预测标注，n表示输入序列的长度；

2.2利用部分标注集训练上述基于BiLSTM的中文分词模型，损失函数表示如下：其中，N表示确定标注的索引号，|N|表示N的数量大小；yi表示输入序列在索引为i的位置的确定标注；表示模型对输入序列索引为i位置的预测标注；M表示部分确定标注的索引号，||M||表示其中表示L0正则化；表示输入序列索引为j位置的部分确定标注；表示模型对输入序列索引为j位置的预测标注；

步骤(4)中计算每个序列的分词准确率置信度和差异置信度的过程如下：

4.1设第i个汉字的部分确定标注为(Bi，Mi，Ei，Si)，其中Bi，Mi，Ei，Si的值为0或1；设模型对第i个汉字的预测概率为其中计算每个序列的分词准确率置信度：

上式中，booli表示一个布尔类型的值；max_index表示计算四个标注中最大值的位置索引的集合；若booli＝true，则预测概率中最大值的位置索引集合是部分确定标注(Bi，Mi，Ei，Si)中最大值的位置索引集合的子集；

上式中Ppl表示分词准确率置信度，S表示一个序列；

4.2对于序列的差异置信度，首先按照部分确定标注(Bi，Mi，Ei，Si)中1的个数，计算出差异均值θk；因为部分确定标注中1的个数只可能为2，3，4，所以k取值为2，3或4；

booli，k＝(sum(Bi，Mi，Ei，Si)＝＝k)&&booli (5)上述两个式子中，L表示所有序列的总个数；sum(Bi，Mi，Ei，Si)表示(Bi，Mi，Ei，Si)中1的个数；表示保留可能标注的位置的值；

表示将中最大值与第二大值相

减所得的值；

一个汉字的预测标注是否满足差异置信度，表示如下：最后，一个序列S的差异置信度计算如下：

步骤(5)中，将满足置信度条件的部分标注集转为有标注集的过程如下：

5.1选取分词准确率高的前m条部分标注集序列；m根据部分标注集规模来选取；

5.2在前m条部分标注集序列中选取差异置信度高的前25％的部分标注集；