1.一种汉文到盲文的自动高效翻译转换方法,其特征在于主要包括如下步骤:(1)对输入的文本文件进行预处理;
(2)将预处理后的文本中的字符划分归类为汉字字符和非汉字字符;
(3)对汉字字符的文本进行基于词典的最大匹配的分词连写处理,实现词组分割;
(4)对非汉字字符串和汉字字符串分别进行符盲转换,生成12位的盲文信息码,根据盲文信息码在盲文显示器上进行显示。
2.根据权利要求1所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述步骤(1)的预处理包括:对文本文件的文件编码进行探测识别,排除非汉字编码方式构成的文本文字,保留以汉字编码方式构成的文本文字,同时根据编码范围识别正确的汉字。
3.根据权利要求1所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述步骤(3)中基于词典的最大匹配的分词连写处理具体包括:利用已构建的汇集常用词语的汉语词典库对汉字字符的文本进行分词连写处理,具体是以从小到大的渐变步长正向将输入文本与汉语词典库词语中的常用词语进行匹配实现遍历分割,进而实现分词连写。
4.根据权利要求1所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述的步骤(4)对非汉字字符串进行符盲转换具体是:利用自建的针对非汉字字符的符号盲文对照表,将文本中的所有非汉字字符转换为12位的符号性盲文编码,作为盲文信息码;
所述的符号盲文对照表具体为:
标点符号 盲文编码 标点符号 盲文编码
、 000100000000 】 000011011000 。 000010011000 ! 000011010000 · 000001001000 ( 000011011000 . 000001001000 ) 000011011000 ~ 000000010001 ? 000010001000 ‘ 000110000110 , 000010011000 ’ 000110000110 : 000010010000 “ 000110000110 ; 000011000000 ” 000110000000 —— 001001000000 【 000011011000 - 001001000000 上表中,由0,1构成的12位序列号表示非汉字字符的符号性盲文编码,符号性盲文编码是按照每个盲文的两方十二个高低点位顺序编号对盲文点位的凸起和非凸起状态进行编码。
5.根据权利要求1所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述的步骤(4)对汉字字符串进行符盲转换具体是:先进行汉字拼音转换传递,对于汉字拼音转换后得到的拼音串,采用以下方式进行拼音到盲文的转换,转换为符号性盲文编码以12位盲文点列的格式进行存储;
a)对汉字拼音串进行音素的识别和分割提取,分为整体认读音节、声母和韵母;
b)将每个拼音串分割后所得到的音素利用自建的音素盲文对照表,得到每个音素对应的6位符号性盲文编码。对于整体认读音节,将其匹配所得的6位符号性盲文编码直接与“000000”字符串顺序连接,完成12位汉盲的转换。对于非整体认读音节,则将其声母和韵母分别匹配所得的6位符号性盲文编码依次组合成为12位的符号性盲文编码,并以12位盲文点列的格式进行存储。
6.根据权利要求5所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述音素盲文对照表具体为:上表中,由0,1构成的12位序列号表示汉字字符所属音节的符号性盲文编码,这里所列出的是汉字字符所属音节及其对应的符号性盲文编码。
7.根据权利要求5所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述步骤a)中,对于每个汉字的拼音串,采用正向最大匹配算法,以从长到短的步长将拼音串中的拼音字母与音素盲文对照表中的音素进行逐一匹配,获得是否匹配的结果,初始步长取该拼音串的字母总数;若在最大步长下匹配成功,则终止匹配,若否,则修改步长,以最长声母的两个字母的步长预匹配,当匹配成功后,则对剩余字母直接进行韵母匹配。
8.根据权利要求7所述的一种汉文到盲文的自动高效翻译转换方法,其特征在于:所述的符号盲文对照表、音素盲文对照表和音素表均以结构体数组存储;并且所述音素盲文对照表中的音素是按整体认读音节、声母和韵母种类依次顺序存储排列,对于整体认读音节、声母和韵母每个种类中的音素字母长度按从大到小依次存储排列。