买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于神经网络的分词和词类标注方法、装置、设备及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于神经网络的分词和词类标注方法、装置、设备及存储介质

面议

专利号： 2019102773717

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于神经网络的分词和词类标注方法，其特征在于，包括下述步骤：获取待分词的语料；将所述待分词语料输入到预先训练的第一DNN神经网络模型中，获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词；计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词；将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类；

其中，所述第一DNN神经网络模型的训练包括以下步骤：

获取训练语料；通过分词工具对所述训练语料划分训练分词，生成词汇表；计算所述词汇表中每个训练分词的内部聚合度和信息熵，并基于计算结果综合筛选出分词结果；将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果；当所述标注结果与所述分词结果不一致时，反复循环迭代的更新所述第一DNN神经网络模型中的权重，至所述标注结果与所述分词结果一致时，结束训练；

所述第一DNN神经网络模型在训练时对所述训练分词以及对每个所述初始分词的内部聚合度和信息熵计算方式为：通过公式①计算所述训练分词或者初始分词的内部聚合度：

在公式①中，Score_inner为内部聚合度，Count(x)为所述训练分词在所述训练语料中出现的次数或所述初始分词在所述待分词的语料中出现的次数；Count(x1)、Count(x2)为所述训练分词或者初始分词进一步划分的词汇在语料中出现的次数，Length(Corpus)为所述训练语料或者待分词的语料的总语句数量；

所述信息熵包括左信息熵和右信息熵，通过公式②计算所述训练分词或者初始分词的左信息熵或右信息熵：当采用公式②计算左信息熵时，Entropy为左信息熵值，N为所述训练分词或者初始分词的左边词汇的数量，pi为所述训练分词或初始分词的左边词汇出现的概率；当采用公式②计算右信息熵时，Entropy为右信息熵值，N为所述训练分词或者初始分词的右边词汇的数量，pi为所述训练分词或初始分词的右边词汇出现的概率；

当初始分词的内部聚合度大于1000，左信息熵和右信息熵均大于1时，将该初始分词作为最终分词；

当所述训练分词的内部聚合度或者信息熵超过预设阈值时，将所述训练分词作为分词结果的候选词汇。

2.根据权利要求1所述的基于神经网络的分词和词类标注方法，其特征在于，所述通过分词工具对所述训练语料划分训练分词，生成词汇表的步骤之后；所述方法还包括：对词汇表的训练分词进行二次划分，得到二次划分词汇；

通过计算公式③计算所述二次划分词汇的内部聚合度：

其中，所述Count(x)为所述训练分词或者初始分词在语料中出现的次数；Count(x21)和Count(x22)为所述训练分词或初始分词Count(x2)的二次划分词汇在语料中出现的次数，2

Length(Corpus)为语料的总语句数量。

3.根据权利要求1所述的基于神经网络的分词和词类标注方法，其特征在于，所述将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果的步骤具体包括：提取所述语料中的字符的词位置特征并向量化，生成特征向量；

将所述特征向量输入到第一DNN神经网络模型中，第一DNN神经网络模型采用基于LSTM模型的3层深度学习神经网络，输出所述字符为分词位置的概率；

若所述概率超过预设阈值，则该字符成为分词划分的位置，作为所述语料的分词标注。

4.根据权利要求1所述的基于神经网络的分词和词类标注方法，其特征在于，所述将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及其概率的步骤，包括：获取所述最终分词在所述语料中的位置；

将所述最终分词向量化；

基于所述最终分词的向量在所述第二DNN神经网络模型训练获取所述最终分词对于模型中设定的词类的概率分布；