买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种理发店员工工作内容智能识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种理发店员工工作内容智能识别方法

￥42000

专利号： 2022110726847

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种理发店员工工作内容智能识别方法，其特征在于：包括以下步骤：

S1：指定采集设备的安装位置和硬件条件，对理发员工和顾客进行识别；

S2：建立理发员工人脸、顾客人脸标签库，并训练人脸识别模型；

S3：建立与物品、工具和人相关的动作标签库，并进行理发店动作行为识别模型训练，其中涉及服务工作中物品、工具和动作相关的人体动作、对象操作交互、人与人交互三大类的多种动作行为识别；

S4：利用训练好的人脸识别模型、理发店动作行为识别模型，对实际理发服务场景进行动作行为识别；构建顾客、员工、动作要素的“动作对”行为时序；所述步骤S4具体包括如下步骤：S41：按一定的规则进行图像和视频帧段采样，用于人脸识别和动作行为识别；

S42：根据视频时序识别过程中，人脸识别和动作行为识别关于人员身份的确认，以及各种行为的识别结果，建立顾客、员工身份对应关系，以及服务过程中具体“动作对”行为时序，记录视频时序中顾客和员工的“动作对”关系；步骤S42具体包括以下步骤：S421：一个服务过程中，当顾客和员工进入某工位stationk的摄像头范围中，利用步骤S2中训练后的人脸识别模型，同时完成顾客和员工的人脸识别，以激活建立工位stationk上顾客和员工的服务对，Cidp表示顾客集合，p＝1,…,m；Eidq表示员工集合，q＝1,…,m1，m和m1分别表示顾客和员工人数；

S422：在工位stationk的摄像头范围中，通过步骤S32训练后的理发店动作行为识别模型进行实时视频序列的动作行为识别，在t时刻，顾客Cidp的识别动作集合为Actpt＝{Actpt,1,…,Actpt,k}；员工Eidq的识别动作集合为Actqt＝{Actqt,1,…,Actqt,k1}，其中，k和k1为顾客和员工在t时刻所识别到的动作个数，而Actpt,k和Actqt,k1为所识别到的动作行为：Actpt,k或

S423：在t时刻，顾客Cidp与员工Eidq形成一个“动作对”，并构建“动作对”矩阵；

分别把Actpt和Actqt集合中每个动作Actpt,k和Actqt,k1的概率值进行排序，取前f个动作，把每个动作构成一个向量：Matrixpt,f＝[Actpt,f,Actpt,f的概率值]

或

Matrixqt,f＝[Actqt,f,Actqt,f的概率值]

如果Actpt或Actqt集合没有f个动作，向量中的动作和其概率值用0值填充；

由此将“动作对”构建为一个2f*2的矩阵Act,t＝[Matrixpt,1,…,Matrixpt,f,Matrixqt,1,…,Matrixqt,f]；在整个服务过程中，针对顾客Cidp，将根据视频帧序列，建立一个基于矩阵Act,t的“动作对”时间序列Sp＝[Act,1,…,Act,t]；

S5：建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签；并根据所述“动作对”行为时序，构建工作内容识别的深度神经网络模型，用以确定理发店员工对顾客的服务工作内容。

2.根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S1中具体包括：捕获理发店场景中理发员工和顾客的视频帧，以及进行员工身份id、顾客身份确认和物品、工具、行为动作的检测和识别。

3.根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S3具体包括以下步骤：S31：按照AVA数据集打标签规则，构建服务过程中与物品、工具和人相关的人体动作、对象操作交互、人与人交互三大类及其中涉及的动作行为标签库；

S32：构建动作行为标签库，训练理发店动作行为识别模型；

S33：建立理发店动作行为关键活动集合。

4.根据权利要求3所述的理发店员工工作内容智能识别方法，其特征在于：步骤S31具体包括以下步骤：S311：首先对原始采集的行为动作视频按15分钟进行分析，并统一将15分钟视频分割成300个非重叠的3秒片段；视频采样时遵循保持动作序列的时间顺序这一策略；

S312：然后对每个3秒片段的中间帧的人物利用LabelImg打标工具手动标注边界框；

S313：对标注框的每个人，从预制的动作类别表中选择适当的标签来描述人物动作；人物动作分为以下三类标签：人体姿势/位移动作、人/物/人交互动作、人/人互动动作；

S314：最后对所有视频片段全部标注，来建立理发动作行为视频训练标签库。

5.根据权利要求3所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S32中，使用基于3D‑Resnet50网络的SlowFast模型进行动作行为识别，所述SlowFast模型由Slow分支和Fast分支组成；

首先以步长Stride＝16帧为间隔，从输入的视频采样，输入到3D‑Resnet50主干网络中提取理发时环境特征信息；

其次以步长Stride＝2帧为间隔，从输入的视频帧采样，同时通道数channel设置为Slow分支1/8倍，输入到网络中提取理发时时序动作特征信息；

然后在3D‑Resnet50主干的Res_conv3_1和Res_conv4_1层分别进行横向连接，将时序动作信息特征融入到环境特征中；

最后在全连接层利用Slow分支和Fast分支后的融合特征信息进行分类和预测理发动作。

6.根据权利要求3所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S33中，根据所构建的动作行为标签库，结合理发店实际应用场景，把所有动作行为分为两类集合：关键动作行为活动集合：包括剪头发、卷头发、染头发、烫头发；关键动作行为活动集合表示为KeyAct＝{KeyAct1,…,KeyActi,…,KeyActn}，其中，KeyActi为第i个关键动作行为，i＝1,…,n，n为关键动作行为个数量；

普通动作行为活动集合：包括交流、站、坐、走；普通动作行为活动集合表示为

NormalAct＝{NormalAct1,…,NormalActi1,…,NormalActn1}，其中，NormalActi1为第i1个普通动作行为，i1＝1,…,n1，n1为普通动作行为个数量。

7.根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：步骤S41具体包括以下步骤：S411：理发服务过程中，根据服务项目的平均时间来采样，并把采样的图像和视频帧段输入模型进行检测；

S412：输入按采样规则所得到的图像到人脸识别模型，确定顾客会员身份以及员工身份信息；根据工位位置，以及工位对应的摄像头索引信息，建立工位上顾客、员工与服务动作行为所对应的工作内容之产的关联关系；

S413：把训练好的SlowFast模型在某一帧中检测框框出的人体区域，与S412中同一帧、同一人体区域的人脸框人脸识别结果相关联，用于后续当未识别到人脸时的人员身份追踪；

S414：利用步骤S32中训练好的SlowFast模型进行理发员工和顾客动作行为识别，包括：顾客和员工的人体姿势/位移动作、服务过程中员工使用的物品和工具与顾客服务交互行为、员工和顾客的交互行为识别。

8.根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S5包括以下步骤：S51：由步骤S33所得的关键动作行为活动集合KeyAct，建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签，表示为Sk＝[KeyActk,1,…,KeyActk,i]，其中KeyActk,i表示第k个类别的工作内容中的第i个动作，KeyActk,i∈KeyAct；以最长的标准关键行为序列中的关键行为个数为准，其他关键行为个数不足者，全部以0填充不足维度；

S52：对由步骤S42所得针对顾客Cidp的“动作对”时间序列Sp＝[Act,1,…,Act,t]进行预处理，预处理方法为：S521：遍历Sp上的“动作对”矩阵，利用矩阵余弦相似度计算Sp上相邻两个“动作对”矩阵的近似度；

S522：如果相邻两个“动作对”矩阵近似度大于阈值，则去掉其中的后一个“动作对”矩阵，表示相邻两个时刻上的动作行为是重复的；

S523：继续遍历所有Sp上的“动作对”矩阵，直至时间序列结束；

Sp经预处理后，去掉每个动作的值概率列，“动作对”矩阵变为Act’,t＝[Actpt,1,…,Actpt,f,Actqt,1,…,Actqt,f]，由预处理后时序上的“动作对”矩阵Act’,t，得到时序Sp’＝[Act’,1,…,Act’,t]，序列中剩余每个动作代表了有一定差异性的“动作对”；

S53：步骤由S52获得的多个顾客服务过程的Sp’以及对应的工作内容识别标签，建立训练数据集，构建用于工作内容识别的深度神经网络模型，输入训练数据集，根据每位顾客的Sp’及其对应的工作内容标签，训练深度神经网络模型，使得由每位顾客的Sp’经深度神经网络模型得到的工作内容序列向量与其对应的工作内容标签损失最小，具体包括以下步骤：S531：构建训练数据集，采集视频并进行如前述过程的处理，或获取多个Sp’以及对应的工作内容识别标签，以Sp’的最大序列长度为准，对不足序列进行0填补；

S532：所述用于工作内容识别的深度神经网络模型构建方法为：设最大序列长度为ActNum，对Sp’中的每个行为，转换为向量，维度为(n+n1)；填补后的Sp’维度为(2f×(n+n1))×ActNum，其中n为关键动作行为个数量，n1为普通动作行为个数量；

所述用于工作内容识别的深度神经网络模型执行步骤如下：

由填补和行为向量转换后的Sp’作为输入，首先通过第一个神经网络模块，把(2f×(n+n1))×ActNum维输入数据转换为n×ActNum维特征；

然后通过第二个神经网络模块，把n×ActNum维特征转换为n×MaxKeyActNum维特征；

MaxKeyActNum为不同工作内容中最大的标准关键行为序列中的关键行为个数；

最后把n×MaxKeyActNum维特征输入到Transformer网络中，其中n×MaxKeyActNum维特征序列的position标记以每个行为划分，进入Transformer网络做position Embedding，最终输出的是MaxKeyActNum个关键行为向量，映射为对应的工作内容标准关键行为序列。