利索能及
我要发布
收藏
专利号: 202010159438X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种利用部分标注集的自训练神经网络分词方法,其特征在于包括如下步骤:步骤(1)利用基于词典的字符串匹配算法,从无标注集中获取部分标注集;

步骤(2)通过改进损失函数,利用有标注集和部分标注集共同训练基于双向长短期记忆网络Bidirectional Long Short Term Memory,即BiLSTM的中文分词模型;

步骤(3)利用基于BiLSTM的中文分词模型对部分标注集进行分词标注;

步骤(4)计算每个序列的分词准确率置信度和差异置信度;

步骤(5)将满足置信度条件的部分标注集转为有标注集;

步骤(6)迭代步骤(2)-步骤(5)直到P次,P是一个人为设定的终止迭代条件;

步骤(1)中利用基于词典的字符串匹配算法,从无标注集中获取部分标注集的过程如下:

1.1利用词典最大正向匹配算法,将匹配到的领域特殊词汇以及长度超过4的词汇打上确定标注;

1.2对于一个文本序列,根据其中确定标注的词汇,划分出多个未切分文本片段;

1.3对于每个未切分文本片段中的第i个汉字ci,计算它的n-grams窗口词汇;

1.4利用窗口词汇给未标注汉字ci打上部分确定标注;

步骤(2)中通过改进损失函数,利用有标注集和部分标注集共同训练基于双向长短期记忆网络的中文分词模型的过程如下:

2.1利用有标注集训练基于BiLSTM的中文分词模型,交叉熵损失函数表示如下:其中,yi表示输入序列的第i个确定标注, 表示模型对输入序列的第i个预测标注,n表示输入序列的长度;

2.2利用部分标注集训练上述基于BiLSTM的中文分词模型,损失函数表示如下:其中,N表示确定标注的索引号,|N|表示N的数量大小;yi表示输入序列在索引为i的位置的确定标注; 表示模型对输入序列索引为i位置的预测标注;M表示部分确定标注的索引号,||M||表示 其中 表示L0正则化; 表示输入序列索引为j位置的部分确定标注; 表示模型对输入序列索引为j位置的预测标注;

步骤(4)中计算每个序列的分词准确率置信度和差异置信度的过程如下:

4.1设第i个汉字的部分确定标注为(Bi,Mi,Ei,Si),其中Bi,Mi,Ei,Si的值为0或1;设模型对第i个汉字的预测概率为 其中计算每个序列的分词准确率置信度:

上式中,booli表示一个布尔类型的值;max_index表示计算四个标注中最大值的位置索引的集合;若booli=true,则预测概率 中最大值的位置索引集合是部分确定标注(Bi,Mi,Ei,Si)中最大值的位置索引集合的子集;

上式中Ppl表示分词准确率置信度,S表示一个序列;

4.2对于序列的差异置信度,首先按照部分确定标注(Bi,Mi,Ei,Si)中1的个数,计算出差异均值θk;因为部分确定标注中1的个数只可能为2,3,4,所以k取值为2,3或4;

booli,k=(sum(Bi,Mi,Ei,Si)==k)&&booli (5)上述两个式子中,L表示所有序列的总个数;sum(Bi,Mi,Ei,Si)表示(Bi,Mi,Ei,Si)中1的个数; 表示保留可能标注的位置的值;

表示将 中最大值与第二大值相

减所得的值;

一个汉字的预测标注是否满足差异置信度,表示如下:最后,一个序列S的差异置信度计算如下:

步骤(5)中,将满足置信度条件的部分标注集转为有标注集的过程如下:

5.1选取分词准确率高的前m条部分标注集序列;m根据部分标注集规模来选取;

5.2在前m条部分标注集序列中选取差异置信度高的前25%的部分标注集;

5.3对于筛选出的部分标注集,转为有标注集;

具体:确定标注的位置采用最初构造部分标注集时的标注,部分确定标注的位置根据模型输出的四维向量 来确定,将 四者最大值置为1,其余置为0;

5.4将新的有标注集加入原始有标注集,并在部分标注集中剔除已转化的部分。