利索能及
我要发布
收藏
专利号: 2023110938281
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,具体为:步骤1,制作SCB_dataset训练数据集;

步骤2,构建FPA Transformer中的Backbone模块,Backbone模块通过使用四个特征感知块来提取学生听课的抬头和低头行为特征得到相应的特征图;

步骤3,搭建FPA Transformer中的特征感知金字塔模块,对步骤2提取得到的特征图进行特征融合;

步骤4,设计FPA Transformer中的Prediction Head模块,对步骤3获取到的特征图上对学生的位置进行定位,并对学生抬头低头行为进行分类;

步骤5,使用步骤1的SCB_dateset训练集训练由Backbone模块、FPP模块和Prediction Head模块组成的FPA Transformer,将训练生成的权重文件进行保存;

步骤6,加载步骤5训练好的权重文件,将教室课堂图像输入到训练好的FPA Transformer中,得到最终网络的检测结果;

其中,Backbone模块通过在特征感知块FPB中加入局部特征感知多头注意力,从而使Backbone模块关注到课堂学生抬头低头行为的更多特征,来提高对学生课堂抬头低头行为特征的提取能力;FPP模块通过引进特征感知下采样对提取到的学生课堂行为进行选择性的特征融合,使其获取课堂学生行为更精细特征的能力也得到进一步加强;Prediction Head模块通过加入阈值分支,来过滤低质量的检测框,进一步提高了FPA Transformer网络对学生课堂抬头低头行为检测和分类的精确度。

2.根据权利要求1所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤1具体为:制作SCB_dataset训练数据集,具体为:制作6000张 大小的教室场景图像作为训练样本,对每张图像中学生听课的抬头和低头行为进行标记,将标记后的图像制作为VOC格式的SCB_dataset训练数据集。

3.根据权利要求2所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤2具体按照以下步骤实施:

步骤2.1,构建Backbone模块,Backbone模块包括有一个PatchPartition层、一个LinearEmbedding层、三个PatchMerging层、四个FPB块;Backbone模块中的PatchPartition层对输入图像进行分块,再通过Backbone模块中的LinearEmbedding层对每个像素的通道做线性变换,之后使用4个相同的FPB块对学生课堂行为特征进行提取,除第一个FPB块外,剩下的3个FPB块都需要通过PatchMerging层进行下采样;最后,Backbone模块输出是四个不同尺度学生行为信息的特征图;

步骤2.2,在Backbone模块的PatchPartition层,对步骤1的图像X进行分块,每4个相邻的像素为一个patch(Xi),然后在通道方向将分块后的输入图像展平,得到图像L1;

步骤2.3,将步骤2.2中得到的图像L1,通过FPA Transformer的LinearEmbedding层对每个像素的通道做线性变换,得到特征图L2;

步骤2.4,构造FPB,每个FPB块结构都包含两个连续的Swin Transformer Block,但将Swin Transformer Block中的窗口多头自注意力用局部特征感知多头注意力替换,将步骤

2.3中得到的特征图L2输入到第一个FPB块中来对学生听课抬头和低头行为特征进行提取,得到大小为 的特征图feat1;

步骤2.5,将步骤2.4中得到的特征图feat1输入到第一个PatchMerging层进行下采样,特征图的宽和高减半、深度翻倍后,再输入第二个FPB块中,再对学生听课抬头和低头的特征进行提取,得到大小为 的特征图feat2;

步骤2.6,将步骤2.5中得到的特征图feat2输入到第二个PatchMerging层进行下采样,特征图的宽和高减半、深度翻倍后,再输入第三个FPB块中,这里需堆叠3次来提取学生听课抬头和低头行为的特征,得到大小为 的特征图feat3;

步骤2.7,将步骤2.6中得到的特征图feat3输入到第三个PatchMerging层进行下采样,特征图的宽和高减半、深度翻倍后,再输入第四个FPB块中,提取学生听课抬头和低头行为的特征,得到大小为 的特征图feat4。

4.根据权利要求3所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤2.4中,计算局部特征感知多头注意力的方法为:首先,将特征图L2输入感知网络得到特征图 ,通过 得到向量 和 ;而向量q由特征图L2获得;最后,将q、和 输入到多头自注意力中进行计算,最后得到输出特征图Z;

其中,感知网络结构由两个卷积层构成,每个卷积层有H×W×C个卷积核,卷积核大小为3×3,其中H,W,C分别为特征图的高、宽和通道数;第一个卷积层用来获得特征图L2中每个元素的坐标位置偏移量,然后,根据位置偏移量由双线性插值计算出该元素的新像素值,最后,通过第二个卷积层得到特征图 。

5.根据权利要求4所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤3具体按照以下步骤实施:

步骤3.1,搭建FPP模块,对步骤2提取的特征图进行特征融合,将步骤2.4‑2.7中输出的特征图feat1,feat2,feat3,feat4输送到FPP模块中,FPP模块包括有三个Conv2D卷积层、三个UpSampling2D上采样层、六个Concat、六个YOLOv5中的CSPLayer,以及三个特征感知下采样;FPP模块最终输出四个分辨率不同的学生行为特征图;

步骤3.2,对步骤2.7中生成的学生听课状态特征图feat4进行1次1×1卷积Conv2D调整通道后获得特征图P4,特征图P4进行上采样UpSampling2D后,与步骤2.6中得到的特征图feat3进行Concat融合,然后使用CSPLayer进行特征提取获得大小为40×40×512的特征图P4_upsample;

步骤3.3,将步骤3.2中得到的特征图P4_upsample,通过1次1×1卷积Conv2D调整通道,获得特征图P3;特征图P3再进行上采样UpSampling2D后,与步骤2.5中得到的特征图feat2进行Concat融合,然后使用CSPLayer进行特征提取,得到大小为80×80×256的特征图P3_upsample;

步骤3.4,将步骤3.3中得到的特征图P3_upsample,通过1次1×1卷积Conv2D调整通道,获得特征图P2;特征图P2再进行上采样UpSampling2D后,与步骤2.4中得到的特征图feat1进行Concat融合,然后使用CSPLayer进行特征提取,得到大小为160×160×128的特征图P1_out;

步骤3.5,将步骤3.4中得到的特征图P1_out进行特征感知下采样,特征感知下采样通过感知网络来实现,网络中的卷积层采样步长为2;感知网络的输出结果再与步骤3.4中得到的特征图P2进行Concat融合,然后使用CSPLayer进行特征提取,得到大小为80×80×256的特征图P2_out;

步骤3.6,将步骤3.5中得到的特征图P2_out进行特征感知下采样,之后与步骤3.3中得到的特征图P3进行Concat融合,然后使用CSPLayer进行特征提取,得到大小为40×40×512的特征图P3_out;

步骤3.7,将步骤3.6中得到的特征图P3_out进行特征感知下采样,之后与步骤3.2中得到的特征图P4进行Concat融合,然后使用CSPLayer进行特征提取,得到大小为20×20×

1024的特征图P4_out。

6.根据权利要求5所述的基于智慧教室场景下学生课堂姿态行为的检测方法,其特征在于,步骤4具体按照以下步骤实施:

步骤4.1,设计FPA Transformer中的Prediction Head模块,Prediction Head模块包括有四个检测头Head,将步骤3.4‑3.7中输出的特征图P1_out,P2_out,P3_out,P4_out分别输送到PredictionHead模块的四个检测头Head中;每个Head检测头包括回归分支、阈值分支和分类分支,每个分支使用四个卷积层进行特征增强,最后每个分支使用不同的卷积层输出卷积后的结果;回归分支对该分辨率下学生位置进行定位,阈值分支对该分辨率下的获得的预测框计算得分score,分类分支计算该分辨率下的学生行为类别即抬头和低头的概率;最后由非极大抑制得到学生课堂抬头和低头行为的最终检测结果;

步骤4.2,将步骤3.4‑3.7中获得的特征图P1_out,P2_out,P3_out,P4_out分别输入Prediction Head的四个检测头Head中,由其回归分支的四个卷积层进行特征增强,再使用一个卷积层来计算出每个学生位置的预测框,输出预测框内的每个像素点到GroundTruth的左、上、右、下四个边界的距离,即l,t,r,b;

步骤4.3,将步骤4.2中获得的l,t,r,b值输入到检测头Head的阈值分支,通过公式(1)来计算预测框中每个像素点的坐标得分score;score值用来判断像素点与GroundTruth坐标中心的距离,距离GroundTruth坐标中心点越近,score值越高,其中 score的表达式如下:步骤4.4,计算最终的置信度s:首先,将步骤3.4‑3.7中获得的特征图P1_out,P2_out,P3_out,P4_out分别输入Prediction Head的四个检测头Head的分类分支,分类分支通过四个卷积层进行特征增强,再使用一个卷积层来计算得到每点对应的类别即抬头和低头的概率p;再将步骤4.3得到的每点的score与每点的类别概率p,通过公式(2)来获得置信度s:步骤4.5,将步骤4.4得到的置信度s使用非极大值抑制来去除多个重复的检测框,用置信度最高的检测框作为最后的检测结果,获得学生课堂姿态行为即抬头和低头的分类。