1.一种改进的用于命名实体识别的主动学习方法,其特征在于,包括:
步骤一:获取初始已标注的样本训练集、已标注的样本验证集和未标注的样本数据集,将已标注的训练集中已被标注出的实体作为已登录实体存储到已登录实体词库中作为对未标注样本的先验知识;
步骤二:设置模型性能标准,即终止学习条件,然后基于已标注的样本数据集训练得到初始的命名实体识别模型,判断该模型是否达到模型性能标准,若模型性能达标,则终止学习,否则进入下述步骤三至步骤九,即主动学习算法中的查询‑训练阶段;
步骤三:利用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,并利用已登录实体词库对未标注样本中的已登录实体进行标记,然后利用下述步骤四到步骤六在实体粒度上分别从三种情况计算不确定性;
步骤四:计算已登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤五:计算已登录实体未被正确识别的情况下所产生的不确定性;
步骤六:计算未登录实体识别概率小于概率阈值的情况下所产生的不确定性;
步骤七:分别赋予上述步骤得到的三种不确定性一个权重参数,然后进行加权求和,作为最终的整个样本预测结果的不确定性;
步骤八:将模型对所有未标注样本的预测结果的不确定性进行排序,选取不确定性最高的部分样本进行人工标注,然后分别对已标注的样本数据集和已登录实体词库进行更新和扩充;
步骤九:基于新的已标注的样本训练集重新训练以得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九。
2.根据权利要求1所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤一中获取初始的已标注的样本训练集、已标注的样本验证集、未标注的样本数据集,其中在已标注的样本训练集中已经出现并被标注出的实体被认为是已登录实体,将所有已登录实体存储到已登录实体词库ED中,作为对未标注样本的先验知识:对于在已标注的样本中出现的已登录实体,如果在未标注的样本中出现了,也应该是同样的实体。
3.根据权利要求2所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤二中先设定一个模型性能标准作为终止学习的条件,即要求模型能够在已标注的样本验证集上达到预设的性能标准,然后基于已标注的样本训练集训练得到初始的命名实体识别模型,再判断模型的性能是否达到性能标准,若达标,则终止学习,否则进入步骤三至步骤九,即主动学习方法中的查询‑训练循环。
4.根据权利要求3所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤三中用当前的命名实体识别模型对未标注的样本数据集中的样本进行预测以得到预测结果,再利用当前的已登录实体词库ED对未标注样本中的已登录实体进行标记,然后利用步骤四到步骤六在实体粒度上分别从以下三种情况计算不确定性:已登录实体识别概率小于概率阈值的情况、已登录实体未被识别的情况、未登录实体识别概率小于概率阈值的情况。
5.根据权利要求4所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤四中对已登录实体识别概率小于概率阈值的情况所产生的不确定性进行计算具体为:采用不确定值 衡量该不确定性,设已登录实体识别的概率阈值为 ,若对某已登录实体的识别概率为 ,且有 ,则认为对该实体的识别具有较高的不确定性,并用来衡量该不确定性;遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值 :其中, 表示已登录的实体词库, 表示预设的已登录实体识别概率阈值, 表示模型识别出已登录实体时的预测概率, 表示被模型识别出、且预测概率 低于阈值 的已登录实体。
6.根据权利要求5所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤五中对已登录实体未被正确识别的情况所产生的不确定性进行计算具体为:采用不确定值 衡量该不确定性,遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值 :其中, 表示未被模型识别出的已登录实体。
7.根据权利要求6所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤六中对未登录实体识别概率小于概率阈值的情况所产生的不确定性进行计算具体为:采用不确定值 衡量该不确定性,设立未登录实体识别的概率阈值为 ,若对某未登录实体的识别概率为 ,且有 ,则认为该实体的识别具有较高的不确定性,并用来衡量该不确定性;遍历每个样本中所有该类实体,并基于以下计算公式计算每个样本的不确定值 :其中, 表示已登录的实体词库, 表示预设的未登录实体识别概率阈值, 表示模型识别出未登录实体时的预测概率, 表示被模型识别出、且预测概率 低于阈值 的未登录实体。
8.根据权利要求7所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤七中对由步骤四、步骤五、步骤六所获得的不确定值 、 、 分别赋予权重参数,然后进行加权求和,以得到最终的用于描述预测结果不确定性的值;具体而言,设最终的用于描述整个样本预测结果不确定性的值为 ,设 、 、 的权重参数分别为 、、 ,基于以下计算公式计算每个样本的 值:其中, 、 、 分别代表 、 、 的权重参数,且有
,该权重参数表示对三种不同情况所产生的不确定性的惩
罚,可以通过调整该权重参数以使最终的不确定值 偏向于某类不确定性,从而在步骤八中基于不确定性选择样本时更倾向于选择能降低该类不确定性的样本。
9.根据权利要求8所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤八中将模型对未标注的样本数据集中的样本的预测结果的不确定性进行排序,即将所有未标注样本的 值按大小排序,然后选取 值最大的 个样本进行人工标注,再分别对已标注的样本训练集和已登录实体词库ED进行更新和扩充。
10.根据权利要求9所述的一种改进的用于命名实体识别的主动学习方法,其特征在于,所述步骤九中基于新的已标注的样本训练集重新训练得到新的模型,然后再次判断模型是否达到模型性能标准,若性能达标,则终止学习,否则重复步骤三至步骤九继续查询‑训练的循环。