1.基于深度学习的主观题智能阅卷方法,其特征是,包括:步骤(1):获取答题卡的图像;
步骤(2):对所获取的图像进行预处理;利用OpenCV的图像分割处理对答题卡图像进行切分,切分为客观题的答题区域和主观题的答题区域;然后,采用OMR方式对客观题的答题区域进行识别;采用OCR方式对主观题的答题区域进行识别;
步骤(3):将客观题和主观题的标准答案均录入到数据库中;所述主观题,包括:设有标准答案的主观题和没有标准答案的主观题;
针对客观题,利用客观题的答题内容与客观题标准答案的匹配结果,实现对客观题的评阅,统计出客观题的分值;
针对设有标准答案的主观题,利用OCR文字识别方法对图像中的文字进行识别,利用关键词匹配方式将答题区域的文字与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值;
针对没有标准答案的主观题,先通过人工设置试卷特征,再通过深度学习训练好一个卷积神经网络模型,利用训练好的卷积神经网络模型,实现对没有标准答案的主观题的评阅,统计出没有标准答案的主观题的分值范围;
步骤(4):如果在阅卷过程中发现异常分值的试卷,则需要人工评阅干预,实现对异常试卷的纠偏处理。
2.如权利要求1所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(3)的针对设有标准答案的主观题,利用关键词匹配方式将答题区域的内容与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值,是指:步骤(301):针对主观题标准答案,利用词库生成算法对长字符串进行切分处理,切分成若干个短字符串,然后,再将短字符串进行分割,生成标准词库;所述长字符串是指字符串长度超过设定阈值的字符串;所述短字符串是指字符串长度不超过设定阈值的字符串;
步骤(302):针对答题区域的内容,首先去除空格和去除空行,然后,再以标点符号为依据,实现分句处理;
步骤(303):对步骤(302)得到的分句处理结果,采用正向最大分词算法,将待分析的句子与专业名词库进行匹配,得到第一分词结果;然后再将与专业名词库匹配失败的内容与普通词典库进行匹配,得到第二分词结果;第一分词结果和第二分词结果合并为总的分词结果;
步骤(304):关键词提取:将提取的关键词与标准词库进行匹配;计算匹配相似度;若匹配相似度大于设定阈值,则匹配成功;否则匹配失败,根据匹配结果,计算主观题答题区域的得分。
3.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(301)的具体步骤为:
步骤(3011):针对标准答案,把长字符串分解成若干短字符串;
步骤(3012):将标准答案依据单字字典,将得到的短字符串分割为单个的词序列;
步骤(3013):若有新的标准答案录入,则返回步骤(3011),否则,输出标准词库。
4.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(302)的具体步骤为:
步骤(3021):判断待处理的字符串是否为空,如果字符串不为空,跳转到步骤(3022);
如果为空,直接结束;
步骤(3022):提取字符串里最左边的一个字符,判断其是否为标点符号字符,如果不是跳转到步骤(3023);如果是,跳转到步骤(3024);
步骤(3023):遍历下一个字符是否为标点符号字符,如果是,跳转到步骤(3024);如果不是,重复执行步骤(3023);
步骤(3024):把当前字符串里的标点符号删除,将被删除的标点符号前面的字符串输出到指定数组,索引值加1,然后跳转到步骤(3021)。
5.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(303)的具体步骤为:
步骤(3031):获取专业名词库中最长词的长度,设为n;
步骤(3032):从步骤(302)得到的分句处理结果中的第一个字开始,从左到右提取n个字;
步骤(3033):将提取的n个字,在专业名词库中进行匹配,若匹配成功,就将提取的n个字从分句处理结果中分割出来;
步骤(3034):若匹配不成功,就将最后面的一个字去掉,再用余下的字重新在专业名词词库里匹配,若匹配成功,就将提取的字从分句处理结果中分割出来,否则,重复步骤(3034),直到n=0,转入步骤(3035);
步骤(3035):当n=0时,取出没有在专业名词库中匹配成功的词,在普通词库中继续匹配;
步骤(3036):当在普通词库中匹配成功时,将匹配成功的词从文本中分离出来,从文本里的第n+1字开始向后再取n个字,返回步骤(3033);
步骤(3037):当最后剩余字数不足n个时,就将剩余字里的最后面的一个字去除掉,再将剩余的字重新在普通词典库里匹配,重复步骤(3037),直到剩余字数为1,查找结束,输出词串。
6.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述关键词提取的步骤如下:
步骤(3041):遍历词串中的各个词,如果遍历至词的尾部,就结束;否则进入步骤(3042);
步骤(3042):判断待提取的词是否是实词,如果不是,返回至(3041);如果是,进入步骤(3043);
步骤(3043):把待提取的词提取出来,返回步骤(3041);
所述计算匹配相似度的步骤如下:
步骤(3044):将考生答案关键词S1分割成单个的字符,分割后的字符为u1,u2,…,un步骤(3045):查找首字符u1是否在标准答案关键词S2里出现,若没有出现就标记为0;若出现就标记为l,然后将S2中出现的u1去掉,继续判断下一个字符,直到将字符u1,u2,…,un全部判断完;
步骤(3046):计算出u1,u2,…,un在S2里总共出现的次数m,得到的就是S1与S2的贴近度N(S1,S2)=m/n,其中,n表示S1中字符个数。
7.如权利要求1所述的基于深度学习的主观题智能阅卷方法,其特征是,针对没有标准答案的主观题,设置三个特征:词汇数量、段落数量和涂改区域个数,从训练试卷样本中提取词汇数量特征、段落数量特征、涂改区域个数特征;
建立词汇数量特征、段落数量特征、涂改区域个数特征与分值范围之间的对应关系;
将每个训练试卷样本的词汇数量特征、段落数量特征、涂改区域个数特征和对应的分值范围均输入到卷积神经网络模型中,对卷积神经网络模型进行训练,输出训练好的卷积神经网络模型;
然后从测试试卷样本中提取词汇数量特征、段落数量特征和涂改区域个数特征;
将所提取的测试试卷样本的词汇数量特征、段落数量特征和涂改区域个数特征输入到训练好的卷积神经网络模型中,输出测试样本的分值范围。
8.如权利要求7所述的基于深度学习的主观题智能阅卷方法,其特征是,所述词汇数量特征的获取方式为:
利用OCR文字识别方法对图像中的文字进行识别,将识别结果通过分词字典进行分词,然后对分词结果进行数量统计,得到词汇数量特征;
所述段落数量特征的获取方式为:
步骤(a):利用OCR文字识别方法对图像中的字符进行识别,初始段落数量为零;设定指针的位置,指针的位置指向第一个字符;
步骤(b):判断指针指向的当前字符是否为文字;
若不是,则指针的位置加一,返回步骤(b)继续判断;
若是,则指针的位置加一,判断下一个字符是否是空格,如果下一个字符是空格,则表明当前字符与之前的若干个字符构成一个段落,累计段落数量加一;
如果下一个字符不是空格,则指针的位置加一,继续寻找下一个字符,直至找到字符是空格为止,累积段落数量加一;
指针位置加一,返回步骤(b)继续判断,直至所有字符被判断完为止,输出段落数量;
所述涂改区域个数特征的获取方式为:
针对没有标准答案的主观题进行拍照,然后,进行图像灰度化处理;
然后,将图像平均划分为若干个区域,计算每个区域内的灰度平均值,如果灰度平均值超过设定阈值,则认为当前区域为涂改区域,累计涂改区域的个数。
9.基于深度学习的主观题智能阅卷系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一方法所述的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一方法所述的步骤。