利索能及
我要发布
收藏
专利号: 2020102804351
申请人: 南京汉韬科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于深度学习的多学生个体分割及状态自主识别方法,其特征在于,包括以下步骤:步骤1:采集正常上课视频,对所采集的视频进行分帧处理,得到每10秒一张待处理的图像,将得到的所有图像合帧,得到课堂视频的连续帧图像;

步骤2:利用基于Mask R-CNN掩模区域卷积神经网络的多学生个体分割方法分割出课堂视频的连续帧图像中的学生个体和非学生个体,并将不同学生个体标记为不同颜色的掩码,得到标记学生掩码的课堂连续帧图像;

步骤3:利用步骤2得到的标记学生掩码的课堂连续帧图像,通过人脸特征点定位方法找到每个学生个体的人眼特征点,利用人眼特征点计算每个学生个体的人眼闭合度特征值,通过人眼闭合度特征值判断每个学生个体当前是否处于听课状态;

步骤4:利用人脸特征点定位方法判断所有学生个体是否检测到人脸,根据所有学生个体中未检测到人脸的个数占所有学生个体的比例,判断学生个体的听课状态等级;

步骤5:根据上述步骤处理完所有课堂视频的连续帧图像后,结合每个学生个体是否处于听课状态及每个学生个体是否处于未抬头状态,通过对不同听课状态打分加权计算出学生整个课堂时段听课效率百分比。

2.根据权利要求1所述的方法,其特征在于,步骤1包括:

步骤1.1:录制整个课堂时段的全体学生正面视频,将所录制的视频保存;

步骤1.2:获得整个课堂时段的全体学生正面视频总帧数,得到每十秒的帧数,设置每十秒的帧数取一次帧,将每次取得的帧转化为每10秒一张待处理的图像输出保存;

步骤1.3:对得到的每10秒一张待处理的图像合并,得到课堂视频的连续帧图像。

3.根据权利要求2所述的方法,其特征在于,步骤2包括:

步骤2.1:使用卷积神经网络提取课堂视频的连续帧图像中的特征图,用于后续Mask R-CNN中的RPN层和全连接层;

步骤2.2:将得到的特征图输入到RPN层,完成从特征图中提取RoI;

步骤2.3:对RPN层的输出结果进行RoI Align操作,使不同输入尺寸的感兴趣的区域RoI得到固定尺寸的输出;

步骤2.4:将步骤2.3处理后的RoI分别送入到Fast R-CNN和FCN两个分支,Fast R-CNN对RoI进行分类和边界框回归,FCN为每个RoI预测掩码。

4.根据权利要求3所述的方法,其特征在于,步骤2.1包括:卷积神经网络包括卷积层、激活函数和池化层;

卷积层对课堂视频的连续帧图像进行特征提取,其特征提取的具体实现是通过卷积核对感受野区域进行卷积所实现的,特征图的每个神经元将输入层中相邻区域的神经元连接在一起,这一区域被称为输入层特征图的感受野,卷积运算的过程为:其中,I表示卷积运算的输入,a,b分别为卷积运算的输入的横坐标及纵坐标,K表示卷积核,S表示得到的特征映射,c,d分别为得到的特征映射的横坐标及纵坐标;

通过池化层的池化操作将得到的特征图内一位置及其相邻位置的特征值进行统计汇总,并将汇总后的结果作为这一位置在所述特征图内的值;

使用ReLu函数作为激活函数:

其中,x表示激活函数的自变量。

5.根据权利要求4所述的方法,其特征在于,步骤2.2包括:步骤2.2.1:RPN层首先为特征图上的每个像素生成9个不同大小的锚箱(anchor box),这9种锚箱包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:

1,1:2,2:1);

步骤2.2.2:对生成的锚箱进行裁剪过滤,RPN层中包含分类分支和边框回归分支,通过分类分支判断锚点属于前景还是背景,即是学生个体还是教室背景;通过边框回归分支回归修正没有被排除的锚箱,具体包括:去除掉超过原图边界的锚箱,即去除掉不需要被检测的背景,判断剩下的锚箱与真值ground truth的交并比IoU, 设置阈值:如果IoU>0.7,则标记为正标签,如果IoU<0.3,则标记为负标签,如果0.3≤IoU≤0.7,则既不是正标签也不是负标签;

步骤2.2.3:在RPN层末端,对分类分支及边框回归分支的结果进行汇总,实现对锚箱的初步筛除和初步偏移后,得到的输出称为候选框,将各个候选框映射到特征图上即为感兴趣的区域RoI。

6.根据权利要求5所述的方法,其特征在于,步骤2.3包括:步骤2.3.1:将RoI映射到特征图的对应位置,使用已有的VGG16网络,选取步长为32做卷积层,则图片缩小为原输入图像的1/32,经过所述步长为32的卷积层后的区域方案映射到特征图中的大小也为原来的1/32;

步骤2.3.2:设定映射后的特征图大小为n*n,n不取整,经池化后固定成7*7大小的特征图,则将特征图上映射的n*n的区域方案划分成49个同等大小的小区域,每个小区域的大小(n/7)*(n/7);

步骤2.3.3:设定采样点数为4,即表示对于每个(n/7)*(n/7)的小区域平分成四份,每一份取其中心点位置的像素,采用双线性插值法进行计算得到四个点的像素值;

步骤2.3.4:取四个像素值中最大值作为这个小区域的像素值,如此类推,同样是49个小区域得到49个像素值,组成7*7大小的特征图,实现了将特征图上的感兴趣的区域RoI固定成特定大小。

7.根据权利要求6所述的方法,其特征在于,步骤3包括:

步骤3.1:利用AdaBoost算法,检测出每个学生个体的人脸所在位置;

步骤3.2:检测到每个学生个体的人脸所在位置后,通过人脸特征点定位到每个学生个体的人眼特征点;

步骤3.3:利用每个学生个体的人眼特征点计算每个学生个体的人眼闭合度特征值,公式如下:其中,xt为眼睛位置的横坐标,yt为眼睛位置的纵坐标,k1为左眼闭合度特征值,k2为右眼闭合度特征值,k为左右眼的平均闭合度特征值;

xt、yt的下标t代表的数字为所有人眼特征点的序号,当学生感到疲劳或打瞌睡时,人眼趋于闭合状态,特征点2即P2与特征点6即P6趋近重合,k值会减小,根据k值大小,判断检测到的学生个体是否处于听课状态:如果k值大于等于0.175,则学生个体被识别为认真听课状态;

如果k值小于0.175,则学生个体被识别为不听课状态。

8.根据权利要求7所述的方法,其特征在于,步骤4包括:

利用AdaBoost算法检测人脸,未检测到人脸则判定该学生个体未抬头,根据所有学生个体中未检测到人脸的个数占所有学生个体的比例,判断学生个体的听课状态等级:如果一帧图像中大于等于80%的学生都处于未抬头状态,则判定所有未抬头学生为认真听课状态;

如果一帧图像中大于等于40%小于80%的学生处于未抬头状态,则判定所有未抬头学生为一般听课状态;

如果一帧图像中小于40%的学生处于未抬头状态,则判定未抬头学生处于不听课状态。

9.根据权利要求8所述的方法,其特征在于,步骤5包括:

通过对不同听课状态打分加权计算出学生整个课堂时段听课效率百分比:对步骤3及步骤4中判别出的处于认真听课状态的学生个体,每检测到一次打1分;

对步骤4中判别出的处于一般听课状态的学生个体,每检测到一次打0.6分;

对步骤3及步骤4中判别出的处于不听课状态的学生个体,每检测到一次打0分;

最终每个学生个体的得分计算公式为:

其中,P为学生个体的得分,r为学生个体处于认真听课状态的总帧数,s为学生个体处于一般听课状态的总帧数,N为得到课堂视频的连续帧图像总帧数。