利索能及
我要发布
收藏
专利号: 2024104620539
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于视频音频识别的变电站鸟类识别方法,其特征在于,包括:(1)通过FAST算法对采集的变电站周围鸟类视频数据进行关键特征点检测,通过BRIEF算法对检测的关键特征点进行标记,得到标记有关键特征点的鸟类视频数据,对鸟类视频数据画面进行分区处理,识别出需重新确定的大变动区域,利用矩形框将这些大变动区域切割下来作为一副单独的图像;

(2)对矩形框切割的大变动区域鸟类图像数据进行Mosaic数据增强;

(3)通过TDAN算法从经数据增强的鸟类图像数据中筛选出符合鸟类特征的图像数据,生成更高分辨率的视频序列;

(4)从特征识别后的鸟类图像数据所对应的鸟类音频数据中,通过M‑GRNN模型筛选出符合鸟类特征的音频数据;

(5)采用AVSR方法将符合鸟类特征的视频数据和音频数据进行模态特征融合,然后输入Transformer解码器进行鸟类信息识别,其中在Transformer解码器上嵌入LM执行联合解码,得到鸟类识别结果;

步骤(1)包括:

(101)对鸟类视频数据进行视频帧提取,通过比较连续帧之间的特征点来消除重复视频帧数据;分析第k‑1帧的同时,引入第k帧作参考;采用FAST算法对画面中的特征点进行检测,随机选择一个判定点,并在其周围布置若干检测点,当判定点周围超过R个点且与判定点的灰度差大于可接受范围时,认定该判定点为关键特征点;R为设定的阈值;

关键特征点的识别依据如下的公式:

其中,N表示特征点的数量;circl(p)表示以像素点p为中心的圆形区域;I(p),I(x)表示两个像素点的灰度值;εd为阈值;p表示位于采样中心的判定点;x表示在特征点周边选取的一个像素点;fCRZ(I(p),I(x))为1,表示两个像素点的灰度值差距大于可接受范围,fCRZ(I(p),I(x))为0,表示两个像素点的灰度值差距在可接受范围内;

若某一点计算出的N大于R,则该点为关键特征点;

(102)视频帧中识别出所有关键特征点后,通过BRIEF算法对这些关键特征点进行描述;

关键特征点I的BRIEF特征值通过如下的公式计算:

其中,xi表示随机点x的像素值;yi表示随机点y的像素值;T(xi,yi)表示这两个像素值的相对强度;

在计算每个关键特征点的BRIEF值时,围绕该点基于高斯分布,随机选择128对采样像素;

计算第k‑1帧关键特征点Ii和第k帧关键特征点Tj模糊相似度μ(Ii,Tj):其中,f(Ii)表示第k‑1帧关键特征点的BRIEF特征值;f(Tj)表示第k帧关键特征点的BRIEF特征值;Sum(n)表示将数字n转化为二进制并按位求和所得的值;Θ表示同或运算;

关键特征点的BRIEF值仅包含128位,任意两点间的模糊相似程度会在0到1之间变化,其中μ(Ii,Tj)=1代表着关键特征点间的完全对应,而μ(Ii,Tj)=0则意味着特征完全不相同,匹配点的可能性极小;

建立一个用以衡量关键特征点之间相似度的集合,其中包含原鸟类图像特征点集I的点I1,I2,I3,......In和目标图像特征点集T的点T1,T2,T3,......Tn的对应关系;

A={

②集合X和集合Y大小相同;

③集合X和集合Y中的特征点都是不重复且唯一的;

将满足上述标准的集合X和集合Y称为第k‑1帧及第k帧的一个匹配方案,计算这两个点集的总匹配度Smatch:其中,n表示集合的长度;μ(Xi,Yi)表示特征点Xi和特征点Yi的匹配度;Xi为集合X中的特征点;Yi为集合Y中的特征点;

存在众多第k帧和第k‑1帧中点的配对组合,在所有这些可能的配对组合中,选取总匹配度Smatch最优的特征点配对组合,并将其作为输出。

2.根据权利要求1所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(1)还包括:(103)依据最优特征点匹配策略,实施视频帧的分割处理;此过程中,目标帧被转换为网格结构,形成分割式网格,除最外侧列与底行之外的网格均为边长为D的正方形;

网格边长D计算公式:

其中,w表示图像的整体宽度,h表示图像的整体高度,D表示将图像切割成分割式网格之后每个矩形网格的边长;

(104)通过对画面进行分区处理,形成多个D*D的网格图像,评估各网格内容变动的幅度;对每个网格中内未成功配对特征点的比重进行序列化评估,若该比重超出预设的界限值,则判定该网格在当前帧显现显著变动,需进行再次识别;

不匹配特征点占比P的计算公式如下:

其中,P表示不匹配特征点占比,m表示正在计算的D*D网格中特征点总数,Ci表示网格中第i个点的匹配情况;

在P值达到既定的界限之后,该区域被识别为大变动区域;

识别出所有需重新确定的大变动区域后,将邻近的这些区域归为同一组;测量该组网格的尺寸,即宽度与高度;利用矩形框将这些大变动区域切割下来作为一副单独的图像,将切割的画面用于后续图像识别。

3.根据权利要求1所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(2)包括:(201)创建一个新的图像样本,在这个范围内随机选取一个点作为图像的中心点;

(202)从数据集中随机选取四张图像,分别对这些图像进行包括缩放、翻转、旋转、随机裁剪、色彩变换的数据增强操作;

(203)将处理完成的图像围绕中心点依次按照左上角、左下角、右上角和右下角四个位置放置;

(204)将四张图像区域截取下来,拼接成为一张新的图像;超过图像样本范围的部分将会被截掉。

4.根据权利要求1所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(3)包括:利用低分辨率的LR支持帧 和参考帧 应用TDAN算法实现时间维度的 与 精准对齐:首先对增强后的图像进行特征提取,采用共享的特征提取网络分别从并行输入的 和中获取视觉特征 和 网络结构包括一层卷积层和k1个残差块,采用Re‑LU作为激活函数;

然后变形对齐模块将视觉特征 和 作为输入,以预测 的卷积核的偏移Θ:fθ(·)为特征提取函数;

利用卷积核的偏移Θ和视觉特征 再通过变形卷积来计算支撑框架的对准特征其中,fdc(·)为可变形卷积算子;Θ={Δpn|n=1,...,|R|},Δpn为卷积核位置偏移量,|R|为卷积核参数个数;

对于对准特征 的每个位置p0有以下关系:

其中,w(pn)为卷积核位置pn的可学习参数;pn为 的第n个卷积核位置;

卷积操作将应用于非整数的位置pn+Δpn上,其中Δpn可能代表小数,针对此问题,通过采用双线性插值的方法得以实现操作;

然后,通过具有核大小的卷积层来预测采样参数|R|,这一参数将作为输出通道的数量;最后,变形卷积运算从Θ和 获得对准特征 为提高模块的变换能力和适应性,在fdc前后阶段均增设了三个额外的变形卷积层;

最后使用3×3卷积层,从已对齐的特征图中重建出低分辨率的LR帧 H×W为帧大小,C为信道数;

在将LR参考帧 和支持帧 反馈至TDAN网络后,最后得到经过对齐处理的低分辨率画面,并进一步采用超分辨率重建网络,以预测高分辨率的视频帧

5.根据权利要求1所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(4)包括:(401)采用MFCC获得音频信号的关键特征向量;

(402)将经过MFCC处理后的关键特征向量输入到GRNN中进行训练和分类,实现对鸟类音频数据的识别和分类。

6.根据权利要求5所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(401)包括:对音频信号首先施加预先的加重处理,预加重的公式为:

y[n]=x[n]‑αx[n‑1]

其中,y[n]表示预加重后的信号;x[n]为原始音频输入信号第n个采样点;α代表预加重系数,取0.97或0.98;

对音频信号进行分帧操作,分帧是在音频信号上将选择的窗函数平滑移动,同时对其进行加权得到的,计算公式如下:yw[n]=ω[n]×y[n]

其中,ω[n]代表窗函数,y[n]代表帧信号;

在对音频信号进行分帧处理过程中,为确保声学特征参数的平滑性,在两个相邻帧之间保留一段音频信息;

为避免采用矩形窗而发生频谱泄露,采用汉宁窗对音频信号进行处理;

汉宁窗的窗函数的计算公式如下:

其中,ωhan[n]代表汉宁窗的窗函数,N代表窗的长度。

7.根据权利要求6所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(402)包括:GRNN神经网络结构包括输入层、模式层、求和层和输出层;网络接收的输入和提供的输T T出向量分别为X=[x1,x2,...,xn]与Y=[y1,y2,...,yk];在输入信息的转译中,输出层通过神经元实现对信息的下传,该层的作用是对输入层传输的鸟类音频信号进行处理,GRNN神经网络输出层的公式如下:其中,X为输入向量;Xi为第i个神经元对应的输入向量训练样本的数值;σ为高斯函数的宽度系数,即平滑因子;

GRNN神经网络求和层主要通过其内部神经元对应的输入和其他神经元对应输入进行求和计算,也就是将输入的音频单信号进行对比融合;GRNN神经网络求和层的计算公式如下:其中,SR为第一类神经元对所有模式层的神经元加权求和;SNg为第二类神经元对所有模式层的神经元加权求和;X为输入向量;Xi为第i个神经元对应的输入向量训练样本的数值;σ为高斯函数的宽度系数,即平滑因子;求和层主要将全部上一层神经元输出结果进行求和,第一类神经元与模式层各神经元的连接权重为1;第二类神经元对所有模式层的神经元加权求和,连接权重为Yi;

神经元对所有模式层的神经元加权求和后,得出鸟类音频数据的识别结果。

8.根据权利要求6所述的基于视频音频识别的变电站鸟类识别方法,其特征在于,步骤(5)包括:(501)通过AVSR方法实现音频、视频两种模态融合的任务,将LM联合解码器嵌入联合解码推理中,以实现字符级预测,并将LM解码推理贯穿整个集束搜索中;

采用位置编码PE在编码器的输入序列中嵌入位置信息,通过正弦和余弦函数进行位置编码,具体方法如下:其中,pos表示单词在句子中的绝对位置;i表示词向量的维度,i=0,1,...,225;d=

512;

(502)通过双重编码通道,将前端模型提取的音频特征faudio和视频特征fvideo送入特征编码器;音频编码和视频编码的结构相同,均使用Transformer自注意力编码层,分别对音频、视频两个通道的数据单独编码,获得音频流编码特征:d

其中, 表示音频数据,i=1,2,3,…,m;m为符合鸟类音频编码特征数量;R表示d维的向量;

视频流编码特征:

其中, 表示音频数据,i=1,2,3,…,n;n为符合鸟类视频编码特征数量;

音频、视频流的编码特征向量的维度为512;通过多模态特征融合网络输出音视频联合特征,其中注意力权重分布由softmax函数得到;多模态特征融合网络的计算公式如下:其中, 表示音频编码特征, 表示视频编码特征, 表示多模态联合特征;Qa,Va、Qv, Vv分别表示音频和视频的查询矩阵,键矩阵,值矩阵; 表示对注意力得分函数的点积缩放;Joint{·}表示不同模态特征的融合;cat(·)函数用于连接字符串;

将音频编码特征 和视频编码特征 送入多模态特征融合网络,经过特征级联的处理传递至联合卷积网络并生成一个多模态联合特征 其特征维度与输入的声音和图像的编码特征维度保持一致;最后,音频和视频的综合编码特征会被送入到解码模块中;

(503)在Transformer解码器上嵌入LM解码器进行联合解码,Transformer解码器与编码器一样也由6层组成;LM由多层堆叠的LSTM网络构建,并使用训练集数据对其进行训练;

在AVSR中,原有解码方法由当前t时刻的联合编码特征向量 和前一时刻预测结果yt‑1通过Softmax层计算概率;在原有的解码方法中嵌入LM,结合Transformer解码器执行联合解码,方法如下:dec LM

其中,p 由Transformer解码器提供;p 由LM提供;yt是t时刻的预测输出;β为超参数。

9.一种基于视频音频识别的变电站鸟类识别系统,包括存储器和处理器,所述的储存器中存储有计算机程序,其特征在于,当所述的计算机程序被处理器执行时,实现权利要求

1至8中任一项所述的基于视频音频识别的变电站鸟类识别方法。