1.一种基于可变形锚框的中小学课堂行为检测方法,其特征在于,包括如下步骤:步骤1:获取不同课堂场景下的监控视频,并对视频图像中的学生课堂行为进行半自动标注,构建与课堂场景相关的课堂行为数据集;
步骤2:使用YOLOv8骨干网络提取特征,其中有80×80×256、40×40×512、20×20×
1024三个尺度的特征图;将特征尺度为80×80×256的特征图作为输入,输入可变形锚框模块CAF,输出可变形锚框的参数,生成偏移量结果;所述可变形锚框模块CAF包括输入适配层、3组可变形卷积层、1个池化层、1个回归分支以及最终输出层;
步骤2.1:使用YOLOv8骨干网络提取特征,输出多尺度特征图;其中有80×80×256、40×40×512、20×20×1024三个尺度的特征图;
步骤2.2:将尺度为80×80×256的特征图输入可变形锚框模块CAF;
步骤2.3:特征图首先输入适配层,经过卷积核为1×1,通道为64的卷积调整通道数,将输入通道由256调整为64,输出尺度为80×80×64的特征图Feature‑Map1;
步骤2.4:Feature‑Map1输入可变形卷积层组,进行特征提取,并对每个像素进行偏移量计算,生成偏移量图,尺寸为80×80×52;
步骤2.4.1:所述可变形卷积层组包括三组卷积操作;
步骤2.4.2:第一组卷积操作包括两个卷积核为3×3,填充为1,通道为64的普通卷积层,一个可变形采样核为3×3,填充为1,通道为2的可变形卷积采样层,以及一个卷积核为3×3,填充为1,通道为128的普通卷积层;
步骤2.4.3:Feature‑Map1经过前两个3×3卷积进行特征提取之后输入可变形采样层,生成偏移量图offset_map1,用于对输入特征图进行可变形采样;其中偏移量图offset_map1每个像素点上的值,表示了对应的输入特征图上的采样偏移量,可变形采样计算公式为:yij=∑pK(p‑i+Δyi,p‑j+Δxj)*X(p)
其中yij为输出特征图Y中坐标为(i,j)的像素值,X为输入特征图,p为输入特征图X的像素坐标,K为采样核,Δyi、Δxj分别为偏移场在(i,j)位置的y方向和x方向偏移量,∑p为对输入特征图X的所有像素p求和;
最后再经过一个卷积核为3×3,通道为128的卷积增加特征图的通道数,学习更丰富的特征表示,最终输出为80×80×128的特征图Feature‑Map2;
步骤2.4.5:第二组卷积操作包括两个卷积核为3×3,填充为1,通道数为64的普通卷积层,一个可变形采样核为3×3,填充为1,通道数为2的可变形卷积采样层,以及一个3×3卷积,填充为1,通道数为256的普通卷积层;
步骤2.4.6:Feature‑Map2经过前两个3×3卷积进行特征提取之后输入可变形采样层,生成偏移量图offset_map2,用于对输入特征图进行可变形采样;最后再经过一个卷积核为
3×3,通道为256的卷积增加特征图的通道数,学习更丰富的特征表示,最终输出为80×80×256的特征图Feature‑Map3;
步骤2.4.7:第三组卷积操作包括两个卷积核为3×3,填充为1,通道数为64的普通卷积层,一个可变形采样核为3×3,填充为1,通道数为2的可变形卷积采样层,以及卷积核为3×
3,填充为1,通道数为512的普通卷积层;
步骤2.4.8:Feature‑Map3经过前两个3×3卷积进行特征提取之后输入可变形采样层,生成偏移量图offset_map3,用于对输入特征图进行可变形采样;最后再经过一个卷积核为
3×3,通道为512的卷积增加特征图的通道数,学习更丰富的特征表示,最终输出为80×80×512的特征图Feature‑Map4;
步骤2.5:Feature‑Map4经步长为2的最大池化层进行下采样,输出尺寸为40×40×512的特征图Feature‑Map5;
步骤2.6:Feature‑Map5经过回归分支输出锚框的坐标偏移量;
步骤2.6.1:所述回归分支包含一个Flatten层,三个全连接层;
步骤2.6.2:Feature‑Map5首先输入Flatten层转换为长度为40×40×512=819200的向量;
步骤2.6.3:长度为819200的向量输入第一个全连接层,所述全连接层节点数为256,提取坐标偏移的高级语义特征,进行矩阵变换,输出长度为256的向量;
步骤2.6.4:长度为256的向量再经过第二个全连接层,所述全连接层节点数为128,进行矩阵变换,提取坐标偏移的高级语义特征,输出长度为128的向量;
步骤2.6.5:长度为128的向量最后经过第三个全连接层,进行矩阵变换,提取坐标偏移的高级语义特征,输出长度为4k的向量,其中k为锚框的数量,4代表每个先验锚框的4个坐标偏移预测(Δx,Δy,Δw,Δh);
步骤3:使用YOLOv8骨干网络提取特征,将步骤2中得到的特征尺寸为40×40×512的特征图作为输入,输入上下文信息模块CTB,输出语义特征图;所述上下文模块CTB包含通道调整、多尺度上下文、特征融合和注意力机制4个功能模块;
步骤4:将步骤3中语义特征图与原始特征图一起作为输入,输入YOLOv8颈部进行特征融合,然后传给检测头生成预测,生成矩形框结果;
步骤5:在后处理阶段,对最大尺度预测框应用步骤2的偏移量调整坐标。
2.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法,其特征在于,所述步骤1的具体方法为:步骤1.1:采集课堂场景监控视频,将视频随机抽取多帧图片,作为学生课堂行为样本集SData,将SData平均划分为n个小样本集SDatai,i∈{1,2,3,…,n};
步骤1.2:使用Labelme对样本集SData1进行标注,标注标签包括:听课、吃东西、睡觉、举手、站立、未知和其他;
步骤1.3:使用标注过的样本集SData1训练后的模型和自动标注脚本对样本集SData2进行自动标注,标注后人工手动修正标签;
步骤1.4:使用所有标注过的样本集SData1~SDatai训练后的模型对为标注的样本集SDatai+1进行自动标注,手动修正;
步骤1.5:所有图像标注完整后划分为训练集、验证集和测试集。
3.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法,其特征在于,所述步骤3的具体方法为:步骤3.1:将尺度为40×40×512的特征图输入上下文模块CTB;
步骤3.2:首先尺度为40×40×512的特征图作为输入,输入卷积核为1×1,通道数为
256的卷积层,将通道数减少到256,输出尺度为40×40×256的特征图Feature‑Map6;
步骤3.3:将Feature‑Map6输入可分离卷积层提取上下文信息,可分离卷积层卷积核大小设置为3,填充设置为1,输出通道设置为256,输出为40×40×256的特征图Feature‑Map7;
步骤3.4:将Feature‑Map7输入卷积核为2,步长为1的平均池化层聚合上下文信息,输出为39×39×256的特征图Feature‑Map8;
步骤3.5:将Feature‑Map8输入卷积核为2,步长为1的最大池化层聚合上下文信息,输出为38×38×256的特征图Feature‑Map9;
步骤3.6:将特征图Feature‑Map8、Feature‑Map9通过转置卷积转化为尺度为40×40×
256的特征图,在与特征图Feature‑Map7在通道维上Concat后拼接到一起形成尺度为40×
40×768大小的特征图Feature‑Map10;
步骤3.7:最后将Feature‑Map10输入卷积核为1×1,通道为256的卷积层,将通道数减少到256,输出尺度为40×40×256的特征图Feature‑Map11。
4.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法,其特征在于,所述步骤4的具体方法为:步骤4.1:语义特征图即为步骤3中的语义特征图Feature‑Map11,原始特征图为YOLOv8骨干网络输出的尺度为40×40×512的特征图;
步骤4.2:首先将Feature‑Map11输入大小为1x1,通道为512的卷积层,将通道数调整到
512;
步骤4.3:将步骤4.2中输出的特征图与YOLOv8骨干网络输出的尺度为40×40×512的特征图进行加权叠加,输出尺寸为40×40×512的特征图,其中加权叠加公式为:Feat_out(i,j,k)=w1*Feat_in(i,j,k)+w2*Feat_semantic(i,j,k)其中w1、w2为可学习权重,Feat_out、Feat_in、Feat_semantic分别为输入特征图、输出特征图、语义特征图,(i,j,k)为第k个通道上的像素点,k为通道索引,k∈{0,1,2,…,511}。
5.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法及装置,其特征在于,所述步骤5的具体方法为:步骤5.1:首先使用对YOLOv8多尺度预测的框进行非极大值阈值,移除重叠框;
步骤5.2:移除低于一定阈值的低置信度框,所述阈值为YOLOv8预测时设定的参数;
步骤5.4:将最大尺度(80×80×256)预测框的相对坐标与CAF模块的偏移量相加,得到最大尺度预测框的绝对坐标,绝对坐标由步骤5.3之后的输出框的相对坐标(x,y,w,h)和步骤2偏移量(Δx,Δy,Δw,Δh)相加而得,计算公式为:(x',y',w',h')=(x,y,w,h)+(Δx,Δy,Δw,Δh)步骤5.5:对其他尺度(40×40、20×20)的预测框,保留其原始相对坐标,不应用CAF偏移量;
步骤5.6:合并不同尺度的预测框,进行后续的NMS操作。
6.一种基于可变形锚框的中小学课堂行为检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现如权利要求1‑5任一项所述的基于可变形锚框的中小学课堂行为检测方法的步骤。