利索能及
我要发布
收藏
专利号: 2022104452337
申请人: 辽宁科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种空中书写文本输入方法,其特征在于,包括如下步骤:步骤1:初始化空中书写文本输入系统;

步骤2:手持书写棒进入摄像头监视的空中区域,并移动书写棒到跟踪框中;

步骤3:利用目标跟踪模型跟踪书写棒,确定当前跟踪框的位置;

步骤4:判断是否切换输入文字类型,如果是则转到步骤5,如果否则转到步骤6;

步骤5:切换输入文字类型;

步骤6:利用书写棒在空中书写文字,并生成文字图像;

步骤7:利用文字识别模型识别文字图像,识别出文字;

步骤8:增加文字显示;

步骤9:判断是否清除增加显示的文字,如果是则转到步骤10,如果否则转到步骤11;

步骤10:清除增加显示的文字;

步骤11:判断文本中所有文字的输入是否结束,如果是则结束,如果否则转到步骤4。

2.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤1中,初始化空中书写文本输入系统包括步骤如下:步骤1‑1:初始化显示屏上的操作窗和跟踪框;

步骤1‑2:初始化输入文字类型;

步骤1‑3:加载与输入文字类型相匹配的文字识别模型参数;

步骤1‑4:加载目标跟踪模型参数。

3.根据权利要求2所述的一种空中书写文本输入方法,其特征在于,所述的步骤1‑3中,文字识别模型采用新设计的网络,具体包括如下:文字识别模型包括文字图像、特征提取网络、分类网络和输出类别,文字图像是模型的输入,文字图像包含待识别的完整图和二值图,特征提取网络提取文字图像的深度特征,特征提取网络包括卷积层、Bi‑CNN层、平均池化层、Bi‑CNN层和平均池化层,卷积层对文字图像完整图和二值图分别进行通道扩充,Bi‑CNN层由并行的常规卷积和空洞卷积后接通道拼接组成,第一个Bi‑CNN层对文字图像二值图的通道特征图进行常规卷积,第一个Bi‑CNN层对文字图像完整图的通道扩充图进行空洞卷积,第一个Bi‑CNN层对常规卷积和空洞卷积后的两个特征图进行通道拼接,第二个Bi‑CNN层对上一层的特征图分别进行常规卷积和空洞卷积,第二个Bi‑CNN层对常规卷积和空洞卷积后的两个特征图进行通道拼接,两个平均池化层都对通道拼接后的特征图进行尺寸压缩,分类网络用于文字的分类识别,分类网络由两个全连接层组成,输出类别是文字图像识别的结果;

当输入文字类型是数字时,文字识别模型的输出类别是0‑9,类别数目是10;

当输入文字类型是符号时,文字识别模型的输出类别是常用的符号,类别数是38;

当输入文字类型是英文时,文字识别模型的输出类别是大写和小写的英文字符,类别数是52;

文字识别模型采用新的双图并行输入网络结构,文字识别模型识别的是数字、符号和英文三种类型的书写体文字,文字识别模型融合文字图像完整图的全局特征和文字图像二值图的局部特征,文字识别模型降低背景信息对特征提取网络的影响。

4.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤3中,利用目标跟踪模型跟踪书写棒包括步骤如下:步骤3‑1:读取书写棒模板图像;

步骤3‑2:根据跟踪框的位置提取书写棒搜索图像;

步骤3‑3:调用目标跟踪模型SiamFC网络,计算书写棒的模板图像与搜索图像之间的响应图;

步骤3‑4:根据书写棒响应图确定当前跟踪框的位置。

5.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤4中,判断是否切换文字类型的过程如下:根据当前跟踪框的位置,判断书写棒是否处于操作窗类型区的位置,如果是则需要切换输入文字类型,如果否则不需要切换输入文字类型。

6.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤5中,切换输入文字类型的过程如下:根据当前跟踪框的位置,确定书写棒位于数字、符号和英文三个子区中的一个;

设定新的输入文字为此子区的类型;

加载与新的输入文字类型相匹配的文字识别模型参数。

7.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤6中,空中书写文字并生成文字图像包括步骤如下:步骤6‑1:备份跟踪框的位置;

步骤6‑2:在操作窗书写区对应的空中区域,移动书写棒;

步骤6‑3:调用目标跟踪模型SiamFC网络,确定当前跟踪框相对于备份跟踪框移动的轨迹;

步骤6‑4:在操作窗书写区直接绘制出跟踪框移动的轨迹;

步骤6‑5:重复上述步骤,绘制书写过程跟踪框全部的移动轨迹;

步骤6‑6:手指遮挡书写棒;

步骤6‑7:提取当前目标跟踪模型SiamFC网络中的响应图最大值,当响应图最大值小于阈值时结束文字书写操作;

步骤6‑8:提取操作窗书写区绘制的轨迹,生成文字图像,包括完整图和二值图。

8.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤9判断是否清除增加显示的文字的过程如下:调用目标跟踪模型SiamFC网络,确定当前跟踪框的位置;

根据当前跟踪框的位置,判断书写棒是否处于操作窗执行区的清除子区,如果是则需要清除增加显示的文字,如果否则不需要清除。

9.根据权利要求1所述的一种空中书写文本输入方法,其特征在于,所述的步骤11判断文本中所有文字的输入是否结束的过程如下:调用目标跟踪模型SiamFC网络,确定当前跟踪框的位置;

根据当前跟踪框的位置,判断书写棒是否处于操作窗执行区的结束子区,如果是则结束文本输入,如果否则可以继续文本输入。

10.一种应用权利要求1所述的一种空中书写文本输入方法的空中书写文本输入装置,包括如下模块:摄像头模块:用于实时采集书写棒在空中的书写、操作视频;

跟踪模块:包含目标跟踪模型,用于跟踪书写棒、生成文字图像和结束文字书写;

识别模块:包含文字识别模型,用于识别空中书写的数字、符号和英文三种类型的文字;

显示模块:用于显示操作窗、视频、跟踪框、文字图像和识别的文字;

数据库模块:用于保存空中书写文本输入方法的数据和参数;

嵌入式模块:用于驱动空中书写文本输入装置和运行空中书写文本输入方法程序;

嵌入式模块与摄像头、显示屏相连;嵌入式模块运行数据库模块,保存书写文本输入方法的程序、数据和参数;嵌入式模块运行跟踪模块、识别模块,完成空中书写文本输入的跟踪与识别功能;嵌入式模块为跟踪模块、识别模块的模型提供GPU运算能力。