1.一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,包括如下步骤:步骤一、获取点集数据:收集用户按行书写汉字文本产生的轨迹数据,所述轨迹数据的形式为包含时序信息的点集;所述点集用于组成笔画;
步骤二、分行并得到行轴线:通过当前笔画、上一笔画和每行字的第一笔画之间的位置关系,将所述轨迹数据分成文本行;然后将属于一个文本行的点集拟合成一条用多项式表达的曲线,作为该文本行的行轴线;
步骤三、计算文本行框:找到文本行的左上顶点A、左下顶点B、右上顶点C和右下顶点D;
用直线分别连接点A和点B、点C和点D,用本文本行的行轴线平移得到的曲线分别连接点A和点C,点B和点D,将围成的封闭区域作为所述文本行的文本行框;
步骤四、判断补笔:判断当前笔画是否在文本行框中或文本行框的延长框中;如果是,则判定当前笔画为补笔行为,将该笔画归为当前文本行框中,进入后续步骤;如果不是,则返回步骤二;
步骤四、合并分行结果:判断两个相邻文本行的文本行框面积重叠程度是否超过事先设定的阈值;如果超过,则将这两个文本行的点集看作属于同一个文本行,然后返回步骤二,得到属于新的文本行的行轴线;如果未超过阈值,则进入步骤五;
步骤五、割字:识别一个文字行内的点集,得到多个连通域;对所述连通域进行合并与切分,得到多个区域,所述区域各包含一个单字;
步骤六、对于文本行计算行指标特征:所述行指标特征包括:
(1)行轴线稳定性:指一个文本行内各字重心与该文本行的行轴线在竖直方向上的偏差;
(2)行轴线距离稳定性,指一组相邻文本行的行轴线间各处距离的偏差;
(3)行轴线距离均匀性:指多组相邻文本行的行轴线两两间平均距离的偏差;
(4)多字的布白匀称性:用于描述同一文本行内相邻两个字的字间距的偏差;
(5)左对齐程度:指每一文本行第一个字的几何中心与第一文本行第一个字几何中心在X轴上的偏差;
步骤七、基于行指标特征,对行书写质量评价打分。
2.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤二中,确定一个笔画为一行字的第一笔画标准为:首先确定整篇文本行的第一个笔画为当前行的第一笔画,当满足分行条件后进行分行,再将新的文本行的第一笔画作为一行字的第一笔画。
3.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤二中,将轨迹数据分行的条件包括两种情况:在X轴方向,当前笔画在第一笔画左边,且上一笔画在第一笔画的右边;同时,从第一笔画到上一笔画的距离小于从当前笔画到上一笔画的距离,并且当前笔画与上一笔画在X方向上的最远距离和上一笔画与第一笔画在X方向上的最远距离大于当前行的最长笔画长度;
或者在X轴方向,当前笔画在第一笔画右边,在上一笔画的右边;同时,第一笔画到上一笔画的距离大于到当前笔画的距离,并且上一笔画与当前笔画在X方向上的最远距离大于所设阈值,上一笔画与第一笔画在X方向上的最远距离大于当前行的最长笔画长度。
4.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤三中,确定文本行的顶点的方法为:令一个文本行内的笔画高度集合为Lstroke,文本行框高度为H=MAX(Lstroke);令行轴线函数为F(x),文本行框四个顶点的坐标为A(x1,y1),B(x1,y2),C(x2,y3),D(x2,y4),以画布的左上角为原点(0,0);则x1=MIN(Xstroke),x2=MAX(Xstroke),y1=F(x1)‑H/2,y2=F(x1)+H/2,y3=F(x2)‑H/2,y4=F(x2)+H/2;其中Xstroke为该行所有笔画的X轴坐标集合。
5.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤五中,对所述连通域进行合并与切分的具体步骤为:
5.1、将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;
5.2、利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;
5.3、合并上下位置、重叠关系的连通域;
5.4、利用投影法切分粘连字符;
5.5、合并左右位置关系的连通域,得出割字结果。
6.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤六中,(1)用于描述行轴线的稳定性的第i行行轴线的稳定性特征值HSi为:其中,Ni为第i行字的个数;fi(xn)为第i行第n字的几何中心横坐标处的行轴线函数值;
为第i行的水平基准线函数,即沿每行行轴线初始位置开始的一条水平线;
(2)用于描述行轴线距离稳定性的第i行行轴线距离稳定性特征值HPi为:WPi(n)为第i行与第i‑1行在第n个字的几何中心横坐标xn处行轴线间的距离,由下式得到:WPi(n)=fi(xn)‑fi‑1(xn),n∈Ni
为第i行与第i‑1行的平均行间距,由下式得到:
其中,Ni为满足如下条件的字的个数,同时在所述Ni个字中,每个字的几何中心横坐标x满足如下条件:其中 为第i行行轴线开始的横坐标, 为第i行行轴线结束的横坐标,且(3)用于描述行轴线距离均匀性的特征值HB为:
其中, 为多行平均行间距,即集合 的平均值,Nl为总行数;
(4)用于描述字重心距离均匀性的特征值WB为:
其中,C为i行字的集合, 其中 自身为第i个文本行中各字的集合,NC为集合C中 的元素总数量, 为i行字间距的集合,ln为集合内第n个字与第n+1个字的字间距;
识别字外包矩形框的宽度 字外包矩形框的高度 与文本行框的高度Hi的关系;
如果满足条件
AND
AND
则认为集合 中第n与第n‑1是连续的两个字,计算其字间距,否则认为是标点符号、过切分或欠切分字符,不计入计算;
(5)用于描述左对齐程度的特征值LA为:
其中,Nl为行的数量; 为第i行第一个字的几何中心横坐标; 为左对齐基准线的起始点横坐标;
WH为文本行内所有字的平均线度,表示为:
其中W={W1,W2,…,WN}为每个字宽度的集合, 为每行行高的集合,为平均字宽, 为平均行高。
7.如权利要求1所述的一种基于时序点集计算的汉字文本行书写质量自动评价方法,其特征在于,步骤七中,对行书写质量评价打分的标准为:
7.1、大量收集用户所写汉字文本行的特征值数据;
7.2、根据各项指标数据的分布范围来划定特征的阈值范围;
7.3、以百分制计算各项特征的分数,给出文本行书写质量评价等级;
7.4、对所述特征值进行加权整合,给出综合评价。
8.一种基于时序点集计算的汉字文本行书写质量自动评价系统,其特征在于,所述系统包括:数据采集模块,分行模块,割字模块,特征计算模块,以及综合评价模块;
所述数据采集模块用于收集用户按行书写汉字文本产生的轨迹数据,所述轨迹数据的形式为包含时序信息的点集;所述点集用于组成笔画;
所述分行模块包括分行单元,拟合单元,补笔判断单元和合并判断单元;由数据采集模块输出的笔画首先进入分行单元,通过当前笔画、上一笔画和每行字的第一笔画之间的位置关系,将所述轨迹数据分成文本行;然后进入拟合单元,将属于一个文本行的点集拟合成一条用多项式表达的曲线,作为该文本行的行轴线;然后令当前笔画进入补笔判断单元进行判断:是否在文本行框中或文本行框的延长框中;如果是,则判定当前笔画为补笔行为,将该笔画归为当前文本行框中;如果不是,则重新进入分行单元;行文本作为所述补笔判断单元的输出,进入合并判断单元;所述合并判断单元用于判断两个相邻文本行的文本行框面积重叠程度是否超过事先设定的阈值;如果超过,则将这两个文本行的点集看作属于同一个文本行,然后返回输入分行单元,进入拟合单元,得到属于新的文本行的行轴线;如果未超过阈值,则作为分行模块的输出;
所述割字模块包括二值化单元,连通域标记单元,合并单元,所述二值化单元用于将书写汉字文本行图像进行二值化预处理,1表示黑点,0为白点,存储为二维数组;所述连通域标记单元用于利用递归算法遍历数组,搜索与“1”元素相邻的八个方向,标记同样为“1”的连通域;所述合并单元用于合并上下位置、重叠关系的连通域,然后利用投影法切分粘连字符,最后合并左右位置关系的连通域,得出割字结果;
所述特征计算模块用于接收文本行的行轴线信息和行内割字结果,输出行评价特征,所述行评价特征包括行轴线稳定性、行轴线距离稳定性、行轴线距离均匀性、多字的布白匀称性和左对齐程度;
所述综合评价模块用于接收特征计算模块输出的行评价特征,输出综合评价结果。