1.一种句法树库构建系统,其特征在于,主要包括:
分词标注模块,对预分词完毕的句子进行分词标注,所述分词标注模块被设置为响应第一模式操作将词素组合成词;和/或,响应第二模式操作将词拆解为词素;
词义标注模块,对分词标注后的句子进行词义标注,所述词义标注模块被设置为响应第三模式操作从多义词候选词义列表中选择相应的候选词义,且所述词义标注模块在进行词义标注之前,利用词义词典构建多义词候选词义列表;
组块连接模块,对词义标注后的句子进行组块并将组块连接信息转换为一棵句法树,所述组块连接模块包括组块连接部和句法树生成部,所述组块连接部被设置为响应第四模式操作将至少两个相邻的词进行组块,再将至少两个相邻的词或组块再组,反复再组直至整个句子组合成一个完整组块;所述句法树生成部保存全部组块连接完成的信息,并将上述信息转换生成句法树;
成分标识及成分关系标注模块,对于组块后的句法成分标识以及成分关系进行自动标注,所述成分标识及成分关系标注模块具体用于:根据事先人工标注的少量的句法树中的词义信息和组块标识所构成的训练库,采用机器学习方式先进行训练,进而实现句子成分标识的自动标注,根据事先人工标注的少量的句法树中的词义信息和句法成分关系所构成的训练库,采用机器学习的方式先进行训练,进而实现句子成分关系的自动标注;
句法树校对模块,通过对标注结果进行自动校对,得到最终标注结果,所述句法树校对模块具体用于,通过对标注结果进行过滤分类并累计投票,直至当能以绝对投票数确定某一标注结果为最终结果时,停止对该句的继续标注,完成标注结果的自动校对。
2.根据权利要求1所述的一种句法树库构建系统,其特征在于,组块连接模块,对词义标注后的句子进行组块并将组块连接信息转换为一棵句法树,具体包括:将连接操作作为第四模式操作对两个或以上相邻的词或组块组合成一个新的组块,连接操作通过在屏幕上快速点击或拖拉操作实现,一个待标注句子的组块连接是从句子中的词开始组块,直至最后整个句子组合成一个完整组块为止。