买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种视频字幕提取方法及装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种视频字幕提取方法及装置

面议

专利号： 2020106650687

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种视频字幕提取方法，其特征在于，所述方法包括：

读取待检测字幕的视频；

基于角点数目检测所述视频中的字幕帧；

对各个字幕帧中的字幕区域进行定位；

从定位出的字幕区域中抽取字幕并进行光学字符识别，得到字幕文字；

其中，所述基于角点数目检测所述视频中的字幕帧，包括：

将所述视频中的每帧图像转换为灰度图像；

对转换为灰度图像的每帧图像进行角点检测，并记录各帧的角点个数；

将角点数目符合预设条件的帧作为字幕帧；所述预设条件包括：所述帧的角点个数大于前一帧的角点个数、所述帧的角点个数大于15；所述帧与前一帧之间的角点个数差值的绝对值大于平均值，所述平均值为所述帧及之后3秒内所有帧与各自上一帧之间的角点个数差值的绝对值的平均值；

其中，所述对各个字幕帧中的字幕区域进行定位，包括：

针对各个字幕帧，将所述字幕帧转换为灰度图像；

截取所述灰度图像底部四分之一高度的图像；

使用拉普拉斯算子对截取出的图像进行边缘检测；

使用大律法对边缘检测后的图像进行二值化处理；

对二值化后的图像进行闭操作；

使用部分像素累加法定位经过所述闭操作的图像中的字幕位置，包括：对经过所述闭操作的图像沿图像水平方向选取居中并连续在[L/2‑L/40，L/2+L/40]长度范围内的所有像素列，设其中的像素的值为Oi；

从i＝1时开始计算并且i递加1，当Oi＝1时计算该像素及下方连续20个像素值的和O_SUMup，其中，O_SUMup＝Oi+Oi+1+Oi+2+Oi+3+...+Oi+20；

当O_SUMup＞10时，记录Oi的位置坐标(xi，yi)，选取记录的所有位置坐标中最小的yi值，该yi值为字幕的顶部坐标的ymin值；

从i＝W时开始计算并且i递减1，当Oi＝1时计算该像素及上方连续20个像素值的和O_SUMdown，其中，O_SUMdown＝Oi+Oi‑1+Oi‑2+Oi‑3+...+Oi‑20；W为图像的像素宽度，L为图像的像素长度；

当O_SUMdown＞10时，记录Oi的位置坐标(xi，yi)，选取记录的所有位置坐标中最大的yi值，该yi值为字幕的底部坐标的ymax值；

对经过所述闭操作的图像沿图像竖直方向选取在[ymin,ymax]范围内的所有像素行，设其中的像素的值为Oj；

从j＝1时开始计算并且j递加1，计算右侧连续20个像素值的和O_SUMleft，其中，O_SUMleft＝Oj+Oj+1+Oj+2+Oj+3+...+Oj+20；

当O_SUMleft＞10时，记录Oj的位置坐标(xj,yj)，选取记录的所有位置坐标中最小的xj值，该xj值为字幕的左侧坐标的xmin值；

从j＝L时开始计算并且j递减1，计算左侧连续20个像素值的和O_SUMright，其中，O_SUMright＝Oj+Oj‑1+Oj‑2+Oj‑3+...+Oj‑20；

当O_SUMdown＞10时，记录Oj的位置坐标(xj,yj)，选取记录的所有位置坐标中最大的xj值，该xj值为字幕的右侧坐标的xmax值；

保存字幕的位置坐标，其中所述字幕的左上角坐标为(xmin+5,ymin+5)，右下角坐标为(xmax+5,ymax+5)。

2.根据权利要求1所述的方法，其特征在于，所述从定位出的字幕区域中抽取字幕并进行光学字符识别，包括：读取字幕位置的坐标；

根据坐标截取字幕部分的源图像并转换为灰度图像；

对所述灰度图像进行中值滤波；

使用拉普拉斯算法对经过中值滤波的图像进行边缘检测；

使用大律法对所述图像进行二值化；

对经过二值化的图像中的文字进行光学字符识别，得到字幕文字。

3.一种视频字幕提取装置，其特征在于，所述装置包括：

读取单元，用于读取待检测字幕的视频；

检测单元，用于基于角点数目检测所述读取单元读取的所述视频中的字幕帧；

定位单元，用于对所述检测单元检测出的各个字幕帧中的字幕区域进行定位；

提取单元，用于从所述定位单元定位出的字幕区域中抽取字幕并进行光学字符识别，得到字幕文字；

其中，所述检测单元具体用于：

将所述视频中的每帧图像转换为灰度图像；对所述每帧图像进行角点检测，并记录各帧的角点个数；将角点数目符合预设条件的帧作为字幕帧；所述预设条件包括：所述帧的角点个数大于前一帧的角点个数、所述帧的角点个数大于15；所述帧与前一帧之间的角点个数差值的绝对值大于平均值，所述平均值为所述帧及之后3秒内所有帧与各自上一帧之间的角点个数差值的绝对值的平均值；

其中，所述定位单元具体用于：

针对各个字幕帧，将所述字幕帧转换为灰度图像；截取所述灰度图像底部四分之一高度的图像；使用拉普拉斯算子对截取出的图像进行边缘检测；使用大律法对边缘检测后的图像进行二值化处理；对二值化后的图像进行闭操作；使用部分像素累加法定位经过所述闭操作的图像中的字幕位置，包括：对经过所述闭操作的图像沿图像水平方向选取居中并连续在[L/2‑L/40，L/2+L/40]长度范围内的所有像素列，设其中的像素的值为Oi；