买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于可变形锚框的中小学课堂行为检测方法及装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于可变形锚框的中小学课堂行为检测方法及装置

￥22800

专利号： 2023112927099

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于可变形锚框的中小学课堂行为检测方法，其特征在于，包括如下步骤：步骤1：获取不同课堂场景下的监控视频，并对视频图像中的学生课堂行为进行半自动标注，构建与课堂场景相关的课堂行为数据集；

步骤2：使用YOLOv8骨干网络提取特征，其中有80×80×256、40×40×512、20×20×

1024三个尺度的特征图；将特征尺度为80×80×256的特征图作为输入，输入可变形锚框模块CAF，输出可变形锚框的参数，生成偏移量结果；所述可变形锚框模块CAF包括输入适配层、3组可变形卷积层、1个池化层、1个回归分支以及最终输出层；

步骤2.1：使用YOLOv8骨干网络提取特征，输出多尺度特征图；其中有80×80×256、40×40×512、20×20×1024三个尺度的特征图；

步骤2.2：将尺度为80×80×256的特征图输入可变形锚框模块CAF；

步骤2.3：特征图首先输入适配层，经过卷积核为1×1，通道为64的卷积调整通道数，将输入通道由256调整为64，输出尺度为80×80×64的特征图Feature‑Map1；

步骤2.4：Feature‑Map1输入可变形卷积层组，进行特征提取，并对每个像素进行偏移量计算，生成偏移量图，尺寸为80×80×52；

步骤2.4.1：所述可变形卷积层组包括三组卷积操作；

步骤2.4.2：第一组卷积操作包括两个卷积核为3×3，填充为1，通道为64的普通卷积层，一个可变形采样核为3×3，填充为1，通道为2的可变形卷积采样层，以及一个卷积核为3×3，填充为1，通道为128的普通卷积层；

步骤2.4.3：Feature‑Map1经过前两个3×3卷积进行特征提取之后输入可变形采样层，生成偏移量图offset_map1，用于对输入特征图进行可变形采样；其中偏移量图offset_map1每个像素点上的值，表示了对应的输入特征图上的采样偏移量，可变形采样计算公式为：yij＝∑pK(p‑i+Δyi,p‑j+Δxj)*X(p)

其中yij为输出特征图Y中坐标为(i,j)的像素值，X为输入特征图，p为输入特征图X的像素坐标，K为采样核，Δyi、Δxj分别为偏移场在(i,j)位置的y方向和x方向偏移量，∑p为对输入特征图X的所有像素p求和；

最后再经过一个卷积核为3×3，通道为128的卷积增加特征图的通道数，学习更丰富的特征表示，最终输出为80×80×128的特征图Feature‑Map2；

步骤2.4.5：第二组卷积操作包括两个卷积核为3×3，填充为1，通道数为64的普通卷积层，一个可变形采样核为3×3，填充为1，通道数为2的可变形卷积采样层，以及一个3×3卷积，填充为1，通道数为256的普通卷积层；

步骤2.4.6：Feature‑Map2经过前两个3×3卷积进行特征提取之后输入可变形采样层，生成偏移量图offset_map2，用于对输入特征图进行可变形采样；最后再经过一个卷积核为

3×3，通道为256的卷积增加特征图的通道数，学习更丰富的特征表示，最终输出为80×80×256的特征图Feature‑Map3；

步骤2.4.7：第三组卷积操作包括两个卷积核为3×3，填充为1，通道数为64的普通卷积层，一个可变形采样核为3×3，填充为1，通道数为2的可变形卷积采样层，以及卷积核为3×

3，填充为1，通道数为512的普通卷积层；

步骤2.4.8：Feature‑Map3经过前两个3×3卷积进行特征提取之后输入可变形采样层，生成偏移量图offset_map3，用于对输入特征图进行可变形采样；最后再经过一个卷积核为

3×3，通道为512的卷积增加特征图的通道数，学习更丰富的特征表示，最终输出为80×80×512的特征图Feature‑Map4；

步骤2.5：Feature‑Map4经步长为2的最大池化层进行下采样，输出尺寸为40×40×512的特征图Feature‑Map5；

步骤2.6：Feature‑Map5经过回归分支输出锚框的坐标偏移量；

步骤2.6.1：所述回归分支包含一个Flatten层，三个全连接层；

步骤2.6.2：Feature‑Map5首先输入Flatten层转换为长度为40×40×512＝819200的向量；

步骤2.6.3：长度为819200的向量输入第一个全连接层，所述全连接层节点数为256，提取坐标偏移的高级语义特征，进行矩阵变换，输出长度为256的向量；

步骤2.6.4：长度为256的向量再经过第二个全连接层，所述全连接层节点数为128，进行矩阵变换，提取坐标偏移的高级语义特征，输出长度为128的向量；

步骤2.6.5：长度为128的向量最后经过第三个全连接层，进行矩阵变换，提取坐标偏移的高级语义特征，输出长度为4k的向量，其中k为锚框的数量，4代表每个先验锚框的4个坐标偏移预测(Δx,Δy,Δw,Δh)；

步骤3：使用YOLOv8骨干网络提取特征，将步骤2中得到的特征尺寸为40×40×512的特征图作为输入，输入上下文信息模块CTB，输出语义特征图；所述上下文模块CTB包含通道调整、多尺度上下文、特征融合和注意力机制4个功能模块；

步骤4：将步骤3中语义特征图与原始特征图一起作为输入，输入YOLOv8颈部进行特征融合，然后传给检测头生成预测，生成矩形框结果；

步骤5：在后处理阶段，对最大尺度预测框应用步骤2的偏移量调整坐标。

2.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法，其特征在于，所述步骤1的具体方法为：步骤1.1：采集课堂场景监控视频，将视频随机抽取多帧图片，作为学生课堂行为样本集SData，将SData平均划分为n个小样本集SDatai，i∈{1，2，3，…，n}；

步骤1.2：使用Labelme对样本集SData1进行标注，标注标签包括：听课、吃东西、睡觉、举手、站立、未知和其他；

步骤1.3：使用标注过的样本集SData1训练后的模型和自动标注脚本对样本集SData2进行自动标注，标注后人工手动修正标签；

步骤1.4：使用所有标注过的样本集SData1～SDatai训练后的模型对为标注的样本集SDatai+1进行自动标注，手动修正；

步骤1.5：所有图像标注完整后划分为训练集、验证集和测试集。

3.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法，其特征在于，所述步骤3的具体方法为：步骤3.1：将尺度为40×40×512的特征图输入上下文模块CTB；

步骤3.2：首先尺度为40×40×512的特征图作为输入，输入卷积核为1×1，通道数为

256的卷积层，将通道数减少到256，输出尺度为40×40×256的特征图Feature‑Map6；

步骤3.3：将Feature‑Map6输入可分离卷积层提取上下文信息，可分离卷积层卷积核大小设置为3，填充设置为1，输出通道设置为256，输出为40×40×256的特征图Feature‑Map7；

步骤3.4：将Feature‑Map7输入卷积核为2，步长为1的平均池化层聚合上下文信息，输出为39×39×256的特征图Feature‑Map8；

步骤3.5：将Feature‑Map8输入卷积核为2，步长为1的最大池化层聚合上下文信息，输出为38×38×256的特征图Feature‑Map9；

步骤3.6：将特征图Feature‑Map8、Feature‑Map9通过转置卷积转化为尺度为40×40×

256的特征图，在与特征图Feature‑Map7在通道维上Concat后拼接到一起形成尺度为40×

40×768大小的特征图Feature‑Map10；

步骤3.7：最后将Feature‑Map10输入卷积核为1×1，通道为256的卷积层，将通道数减少到256，输出尺度为40×40×256的特征图Feature‑Map11。

4.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法，其特征在于，所述步骤4的具体方法为：步骤4.1：语义特征图即为步骤3中的语义特征图Feature‑Map11，原始特征图为YOLOv8骨干网络输出的尺度为40×40×512的特征图；

步骤4.2：首先将Feature‑Map11输入大小为1x1，通道为512的卷积层，将通道数调整到

512；

步骤4.3：将步骤4.2中输出的特征图与YOLOv8骨干网络输出的尺度为40×40×512的特征图进行加权叠加，输出尺寸为40×40×512的特征图，其中加权叠加公式为：Feat_out(i,j,k)＝w1*Feat_in(i,j,k)+w2*Feat_semantic(i,j,k)其中w1、w2为可学习权重，Feat_out、Feat_in、Feat_semantic分别为输入特征图、输出特征图、语义特征图，(i,j,k)为第k个通道上的像素点，k为通道索引，k∈{0，1，2，…，511}。

5.根据权利要求1所述的基于可变形锚框的中小学课堂行为检测方法及装置，其特征在于，所述步骤5的具体方法为：步骤5.1：首先使用对YOLOv8多尺度预测的框进行非极大值阈值，移除重叠框；

步骤5.2：移除低于一定阈值的低置信度框，所述阈值为YOLOv8预测时设定的参数；

步骤5.4：将最大尺度(80×80×256)预测框的相对坐标与CAF模块的偏移量相加，得到最大尺度预测框的绝对坐标，绝对坐标由步骤5.3之后的输出框的相对坐标(x,y,w,h)和步骤2偏移量(Δx,Δy,Δw,Δh)相加而得，计算公式为：(x',y',w',h')＝(x,y,w,h)+(Δx,Δy,Δw,Δh)步骤5.5：对其他尺度(40×40、20×20)的预测框，保留其原始相对坐标，不应用CAF偏移量；

步骤5.6：合并不同尺度的预测框，进行后续的NMS操作。

6.一种基于可变形锚框的中小学课堂行为检测装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现如权利要求1‑5任一项所述的基于可变形锚框的中小学课堂行为检测方法的步骤。