利索能及
我要发布
收藏
专利号: 2022101260960
申请人: 北京易聊科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2024-11-11
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种无标注语料下的句型自动判别方法,其特征在于:包括如下步骤,S1、将无标注语料数据和业务规则输入启发式判别算法,获取标注语料A;

S2、将标注语料A输入一致性判别算法,获取标注语料B;

S3、将标注语料A和标注语料B输入偏向性训练算法,获取最终的判别模型。

2.根据权利要求1所述的无标注语料下的句型自动判别方法,其特征在于:步骤S1具体包括如下内容,

S11、利用业务规则对无标注语料进行业务标记;

S12、根据业务标记后的无标注语料的语言学特征,将由中心语、语法角色、语义角色、关联项以及排除项组成的多元组作为一条模式规则;

S13、启发式判别算法根据多元组构成的模式规则对业务标记后且特征化后的无标注语料进行打标,获取标注语料A。

3.根据权利要求2所述的无标注语料下的句型自动判别方法,其特征在于:多元组生成过程如下,

将无标注语料通过语言学分析算法进行特征化:语言学分析算法将无标注语料分解为词间依存关系的多个三元组后,将无标注语料对应的关系类型根据三元组中父节点索引生成图结构;

利用图结构生成多元组:语言学分析算法在图结构上进行搜索,找到频繁项的父、子节点对应的词性和类型,并将频繁项的词性和类型、父节点类型、子节点的类型、频繁项在无标注语句中的邻接词按照既定顺序组成多元组。

4.根据权利要求3所述的无标注语料下的句型自动判别方法,其特征在于:所述三元组包括当前词的节点索引、父节点词索引以及当前词与父节点词的关系类型。

5.根据权利要求3所述的无标注语料下的句型自动判别方法,其特征在于:语言学分析算法在图结构上进行搜索具体为,延图的拓扑路径进行广度优先匹配或深度优先匹配,以获取频繁项;

所述广度优先匹配具体为:以当前节点为始,枚举搜索其邻接节点后,再以这些邻接节点为始,枚举搜索这些邻接节点的邻接节点,达到当前节点的最大深度后,统计频繁项;

所述深度优先匹配具体为:以当前节点为始,随机搜索其一个邻接节点,并以该邻接节点为始,进一步随机搜索其邻接的一个节点,达到当前节点的最大深度后,统计频繁项;

所述邻接节点包括父节点和子节点;当当前节点的最大深度与预设深度相等时,广度优先匹配和深度优先匹配获取的频繁项一致。

6.根据权利要求5所述的无标注语料下的句型自动判别方法,其特征在于:步骤S2具体包括如下内容,

S21、基于统计机器学习中的语言模型、基于词构建词集合向量或基于字和预训练深度模型的实数句向量,对标注样本A进行特征化;

S22、利用特征化后的标注样本A迭代训练机器学习模型,将每轮训练后打标与启发式判别算法打标不一致的样本进行超采样生成下轮训练样本,直到训练的准确度出现下降趋势后,停止训练,获取训练好的机器学习模型;

S23、将训练得到的假阴性样本和假阳性样本经过均匀分布采样后作为主动学习样本交由人工打标,获取标注样本B;

假阴性样本即为,训练好的机器学习模型打标为负样本且人工标记为正样本的样本;

假阳性样本即为,训练好的机器学习模型打标为正样本且人工标记为负样本的样本。

7.根据权利要求6所述的无标注语料下的句型自动判别方法,其特征在于:步骤S3具体包括如下内容,

S31、利用偏向性训练算法迭代训练标注语料A,将每轮迭代中没有被正确判别的样本进行超采样生成下轮训练样本,直到训练的准确度出现下降趋势后,停止训练标注语料A;

输出初始判别模型;

S32、利用初始判别模型迭代训练标注语料B,将每轮迭代中没有被正确判别的样本进行超采样生成下轮训练样本,直到训练的准确度出现震荡后,停止训练标注样本B;输出最终的判别模型。

8.根据权利要求7所述的无标注语料下的句型自动判别方法,其特征在于:所述偏向性训练算法为LinearSVC或sigmoid函数作为激活函数的DNN。

9.根据权利要求7所述的无标注语料下的句型自动判别方法,其特征在于:最终的判别模型投入使用后,对无标注语料进行自动打标,人工对其打标结果进行预设比例的抽样检验,将检验中打标与启发式算法打标不一致的样本收集后加入标注语料B,并再次利用初始判别模型迭代训练标注语料B,获取新的最终的判别模型。