1.一种基于词语特征值的法律专有领域词发现方法,其特征在于,包括以下步骤:
步骤1、首先读入待分词操作的法律领域文本数据集,根据中文中常见停用词等在内明显的分隔符对输入的初始文本数据集进行粗切分得到一个短字符串集;
步骤2、然后利用基于词典的正向最大匹配算法,遍历短字符串集,将和词典中匹配的词语加入到分词结果,如此将短字符串集切分成多个散串及散词,通过分析采用的法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;
步骤3、执行基于词语特征值的法律专有领域词发现算法,首先统计候选分词词串在出现文档及全文档中的频率,在计算出该词串的DF值,最后计算该词串的GF值。利用上述计算步骤的得到的结果代入GF计算的公式,分别出计算候选分词词串集中的每个候选分词词串的词语特征值,当候选分词词串的词语特征值大于设定的阈值时,就加入到分词结果中,当候选分词词串的词语特征值小于设定的阈值时,就舍弃该词串,最后完成分词。
2.根据权利要求1所述的一种基于词语特征值的法律专有领域词发现方法,其特征在于,所述步骤2通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;
根据法律专有领域词的构词规则提取候选分词词串集,经统计常见的法律专有领域词构词规则通常有w+1,w+n,2+3,3+2,w+1+w,w+2+w其中w代表含有w个字符的字符串,只考虑这6中常见法律专有领域词的构词规则。
3.根据权利要求2所述的一种基于词语特征值的法律专有领域词发现方法,其特征在于,执行基于词语特征值的法律专有领域词发现算法需要统计包括词语的词长|a|、词频差DF(a)、文档频率g(a)、逆文档频率log2(m/g(a))四个特征,其中DF(a)的计算公式为:TF(a,di)指的是候选分词串a在文档di中的的词频,TF(a,D)指的是候选分词串a在总文档D中的词频,m是文档总数。
4.根据权利要求3所述的一种基于词语特征值的法律专有领域词发现方法,其特征在于,所述步骤3采用基于词语特征值的法律专有领域词发现算法计算每个候选分词词串集中的每个词串的词语特征值,随后与设定的阈值比较,计算词语特征值采用的公式为,其中T(a)是包含a的父串集合。
5.根据权利要求3所述的一种基于词语特征值的法律专有领域词发现方法,其特征在于,所述步骤3中,根据计算出的每个候选词串的词语特征值GFi,计算出需要设定的阈值h;
计算阈值h的公式为:
其中n是候选分词词串的总数;
将每个候选分词词串的GFi值与阈值h作对比,若GFi>h,则将该候选分词词串加入到最后的分词结果中。
6.一种基于词语特征值的法律专有领域词发现装置,其特征在于,包括:
文本集粗切分模块:用于读入待分词操作的法律领域文本数据集,根据包括中英文的标点符号、阿拉伯数字、特殊符号、图表以及中文中常见停用词在内明显的分隔符对输入的初始文本数据集进行粗切分得到一系列的短字符串,构成短字符串集;
候选分词词串提取模块:用于利用基于词典的正向最大匹配算法,遍历短字符串集,将和词典中匹配的词语加入到分词结果,将短字符串集切分成多个散串及散词,通过分析法律领域专有词的构词规则,将这些散词散串进行合并提取,放入到候选分词词串集;
分词模块:用于执行基于词语特征值的法律专有领域词发现算法,首先计算候选分词词串集中每个候选分词词串的TF、DF值,接着在分别计算候选分词词串集中的每个候选分词词串的词语特征值,随后与设定的阈值对比,大于阈值就加入到分词结果中,反之舍弃该词串,最后完成分词。