利索能及
我要发布
收藏
专利号: 2023112440302
申请人: 成都航空职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种培训监管系统,其特征在于,包括:声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器;

所述声音提取子系统用于从语音信号中提取出存在讲师声音的信号,得到多个子段声音信号;所述声音幅值提取子系统用于计算每个子段声音信号的平均幅值;所述时频转换子系统用于将每个子段声音信号进行时频转换,得到频域信号;所述时域信号特征提取子系统用于对每个子段声音信号提取时域特征;所述频域信号特征提取子系统用于对频域信号提取频域特征;所述时频特征融合子系统用于融合时域特征和频域特征,得到融合特征;

所述第一解码器用于对融合特征进行解码,得到讲师全部口语文本;所述第二解码器用于根据子段声音信号的平均幅值对融合特征进行增强,得到增强特征,对增强特征进行解码,得到讲师重要内容口语文本。

2.根据权利要求1所述的培训监管系统,其特征在于,所述声音提取子系统包括:采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元;

所述采样单元用于对语音信号进行采样处理,得到离散语音幅值数据;所述声音时间段筛选单元用于设置幅值阈值,将离散语音幅值数据中每个幅值数据与幅值阈值进行比较,找到幅值数据高于幅值阈值的时间段,得到多个声音时间段;所述初始声音信号筛选单元用于从离散语音幅值数据中找到每个声音时间段的幅值数据,得到初始声音信号;所述子段声音信号筛选单元用于根据初始声音信号对应的声音时间段长度和幅值数据,计算声音有效值,将声音有效值大于有效阈值的初始声音信号作为子段声音信号。

3.根据权利要求2所述的培训监管系统,其特征在于,所述计算声音有效值的公式为:

其中,Va为声音有效值,Amt为初始声音信号中第t时刻的幅值数据,C为初始声音信号的声音时间段长度,t为时刻的编号。

4.根据权利要求1所述的培训监管系统,其特征在于,所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同,均包括:二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元;

所述二维矩阵构建单元的输入端作为时域信号特征提取子系统或频域信号特征提取子系统的输入端,其输出端与卷积神经网络的输入端连接;所述卷积神经网络的输出端分别与矩阵运算器H1的第一输入端和注意力输出单元的输入端连接;所述矩阵运算器H1的第二输入端与注意力输出单元的输出端连接,其输出端与归一化层的输入端连接;所述时间循环特征提取单元的输入端与归一化层的输出端连接,其输出端作为时域信号特征提取子系统或频域信号特征提取子系统的输出端;所述二维矩阵构建单元用于将一维的子段声音信号或频域信号转换为二维矩阵;所述矩阵运算器H1用于将卷积神经网络的输出与注意力输出单元的输出进行哈达玛积运算。

5.根据权利要求4所述的培训监管系统,其特征在于,所述卷积神经网络包括:第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层;

所述第一卷积层的输入端作为卷积神经网络的输入端,其输出端与第一多路径特征提取层的输入端连接;所述第二卷积层的输入端与第一多路径特征提取层的输出端连接,其输出端与第二多路径特征提取层的输入端连接;所述ReLU层的输入端与第二多路径特征提取层的输出端连接,其输出端作为卷积神经网络的输出端。

6.根据权利要求5所述的培训监管系统,其特征在于,所述第一多路径特征提取层和第二多路径特征提取层的结构相同,均包括:第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1;

所述第三卷积层的输入端分别与第四卷积层的输入端、第五卷积层的输入端和加法器A1的第一输入端连接,并作为第一多路径特征提取层或第二多路径特征提取层的输入端;

所述乘法器M1的第一输入端与第三卷积层的输出端连接,其第二输入端与第四卷积层的输出端连接,其输出端与乘法器M2的第一输入端连接;所述乘法器M2的第二输入端与第五卷积层的输出端连接,其输出端与加法器A1的第二输入端连接;所述加法器A1的输出端作为第一多路径特征提取层或第二多路径特征提取层的输出端。

7.根据权利要求4所述的培训监管系统,其特征在于,所述注意力输出单元的表达式为:

其中, 为注意力输出单元的第i个输出值,xi为卷积神经网络的第i个输出值,max{xi}为取卷积神经网络输出值的最大值,e为自然常数,i为输出值的编号。

8.根据权利要求4所述的培训监管系统,其特征在于,所述时间循环特征提取单元的表达式为:,

其中,yt为时间循环特征提取单元第t时刻的输出,vt为归一化层第t时刻的输出,yt‑1为时间循环特征提取单元第t‑1时刻的输出,w1,v为归一化层第t时刻的输出vt的第一权重,w1,y为时间循环特征提取单元第t‑1时刻的输出yt‑1的第一权重,w2,v为归一化层第t时刻的输出vt的第二权重,w2,y为时间循环特征提取单元第t‑1时刻的输出yt‑1的第二权重,g1,t为第t时刻的第一中间变量,g2,t为第t时刻的第二中间变量,w1,g为第t时刻的第一中间变量g1,t的权重,w2,g为第t时刻的第二中间变量g2,t的权重,b1为第一偏置,b2为第二偏置,b3为第三偏置,为sigmoid激活函数,tanh为双曲正切激活函数,t为时刻的编号。

9.根据权利要求1所述的培训监管系统,其特征在于,所述时频特征融合子系统的表达式为:

其中,X为时频特征融合子系统输出的融合特征,AvgPool为平均池化操作,MaxPool为最大池化操作, 为哈达玛积,TD为时域特征,FD为频域特征。

10.根据权利要求1所述的培训监管系统,其特征在于,所述对融合特征进行增强的表达式为:,

其中, 为第j个子段声音信号对应的增强特征,Xj为第j个子段声音信号对应的融合特征, 为第j个子段声音信号的平均幅值, 为sigmoid激活函数,j为子段声音信号的编号。