1.一种基于神经网络的分词和词类标注方法,其特征在于,包括下述步骤:获取待分词的语料;将所述待分词语料输入到预先训练的第一DNN神经网络模型中,获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词;计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词;将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率;将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算相似词词类概率;比较所述候选词类概率和相似词词类概率,返回概率最高的词类为所述最终分词的词类;
其中,所述第一DNN神经网络模型的训练包括以下步骤:
获取训练语料;通过分词工具对所述训练语料划分训练分词,生成词汇表;计算所述词汇表中每个训练分词的内部聚合度和信息熵,并基于计算结果综合筛选出分词结果;将所述训练语料输入到所述第一DNN神经网络模型中,分析所述语料中每个字符的词位置,并在分词位置标注结果;当所述标注结果与所述分词结果不一致时,反复循环迭代的更新所述第一DNN神经网络模型中的权重,至所述标注结果与所述分词结果一致时,结束训练;
所述第一DNN神经网络模型在训练时对所述训练分词以及对每个所述初始分词的内部聚合度和信息熵计算方式为:通过公式①计算所述训练分词或者初始分词的内部聚合度:
在公式①中,Score_inner为内部聚合度,Count(x)为所述训练分词在所述训练语料中出现的次数或所述初始分词在所述待分词的语料中出现的次数;Count(x1)、Count(x2)为所述训练分词或者初始分词进一步划分的词汇在语料中出现的次数,Length(Corpus)为所述训练语料或者待分词的语料的总语句数量;
所述信息熵包括左信息熵和右信息熵,通过公式②计算所述训练分词或者初始分词的左信息熵或右信息熵:当采用公式②计算左信息熵时,Entropy为左信息熵值,N为所述训练分词或者初始分词的左边词汇的数量,pi为所述训练分词或初始分词的左边词汇出现的概率;当采用公式②计算右信息熵时,Entropy为右信息熵值,N为所述训练分词或者初始分词的右边词汇的数量,pi为所述训练分词或初始分词的右边词汇出现的概率;
当初始分词的内部聚合度大于1000,左信息熵和右信息熵均大于1时,将该初始分词作为最终分词;
当所述训练分词的内部聚合度或者信息熵超过预设阈值时,将所述训练分词作为分词结果的候选词汇。
2.根据权利要求1所述的基于神经网络的分词和词类标注方法,其特征在于,所述通过分词工具对所述训练语料划分训练分词,生成词汇表的步骤之后;所述方法还包括:对词汇表的训练分词进行二次划分,得到二次划分词汇;
通过计算公式③计算所述二次划分词汇的内部聚合度:
其中,所述Count(x)为所述训练分词或者初始分词在语料中出现的次数;Count(x21)和Count(x22)为所述训练分词或初始分词Count(x2)的二次划分词汇在语料中出现的次数,2
Length(Corpus)为语料的总语句数量。
3.根据权利要求1所述的基于神经网络的分词和词类标注方法,其特征在于,所述将所述训练语料输入到所述第一DNN神经网络模型中,分析所述语料中每个字符的词位置,并在分词位置标注结果的步骤具体包括:提取所述语料中的字符的词位置特征并向量化,生成特征向量;
将所述特征向量输入到第一DNN神经网络模型中,第一DNN神经网络模型采用基于LSTM模型的3层深度学习神经网络,输出所述字符为分词位置的概率;
若所述概率超过预设阈值,则该字符成为分词划分的位置,作为所述语料的分词标注。
4.根据权利要求1所述的基于神经网络的分词和词类标注方法,其特征在于,所述将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及其概率的步骤,包括:获取所述最终分词在所述语料中的位置;
将所述最终分词向量化;
基于所述最终分词的向量在所述第二DNN神经网络模型训练获取所述最终分词对于模型中设定的词类的概率分布;
选择预设数量的词类作为候选词类。
5.根据权利要求4所述的基于神经网络的分词和词类标注方法,其特征在于,所述将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算概率的步骤包括:基于所述最终分词的词向量,通过欧氏距离公式,获取多个所述最终分词的相似词;
获取所述相似词的词类并计算所述相似词所属词类的概率分布;
选择预设数量相似词的词类作为候选词类。
6.一种基于神经网络的分词和词类标注装置,其特征在于,包括:
语料获取模块,用于获取待分词的语料;
分词模块,用于将所述待分词语料输入到预先训练的第一DNN神经网络模型中,获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词;
筛选模块,用于计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词;
候选词类标注模块,用于将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率;
相似词类标注模块,用于将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算相似词词类概率;
词类输出模块,用于比较所述候选词类概率和相似词词类概率,返回概率最高的词类为所述最终分词的词类;
其中,所述分词模块在对第一DNN神经网络模型的训练时,具体用于:
获取训练语料;通过分词工具对所述训练语料划分训练分词,生成词汇表;计算所述词汇表中每个训练分词的内部聚合度和信息熵,并基于计算结果综合筛选出分词结果;将所述训练语料输入到所述第一DNN神经网络模型中,分析所述语料中每个字符的词位置,并在分词位置标注结果;当所述标注结果与所述分词结果不一致时,反复循环迭代的更新所述第一DNN神经网络模型中的权重,至所述标注结果与所述分词结果一致时,结束训练;
所述第一DNN神经网络模型在训练时对所述训练分词以及对每个所述初始分词的内部聚合度和信息熵计算方式为:通过公式①计算所述训练分词或者初始分词的内部聚合度:
在公式①中,Score_inner为内部聚合度,Count(x)为所述训练分词在所述训练语料中出现的次数或所述初始分词在所述待分词的语料中出现的次数;Count(x1)、Count(x2)为所述训练分词或者初始分词进一步划分的词汇在语料中出现的次数,Length(Corpus)为所述训练语料或者待分词的语料的总语句数量;
所述信息熵包括左信息熵和右信息熵,通过公式②计算所述训练分词或者初始分词的左信息熵或右信息熵:当采用公式②计算左信息熵时,Entropy为左信息熵值,N为所述训练分词或者初始分词的左边词汇的数量,pi为所述训练分词或初始分词的左边词汇出现的概率;当采用公式②计算右信息熵时,Entropy为右信息熵值,N为所述训练分词或者初始分词的右边词汇的数量,pi为所述训练分词或初始分词的右边词汇出现的概率;
当初始分词的内部聚合度大于1000,左信息熵和右信息熵均大于1时,将该初始分词作为最终分词;
当所述训练分词的内部聚合度或者信息熵超过预设阈值时,将所述训练分词作为分词结果的候选词汇。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于神经网络的分词和词类标注方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于神经网络的分词和词类标注方法的步骤。