1.一种基于语义指导的自然场景下屏幕区域检测方法,其特征在于,能够对自然场景下拍摄的屏幕图片进行处理,得到其屏幕内容,具体包括以下步骤:步骤1、采集用户手机拍摄的场景屏幕图像,并对输入图像进行预处理;
步骤2、构建一个基于语义指导的边缘检测网络;
步骤3、通过迁移学习的方式,使用自制屏幕边缘数据集对网络进行微调;
步骤4、在训练完成后的神经网络上对输入图像进行屏幕边缘检测,得到屏幕边缘图像。
步骤5、利用得到的屏幕边缘图像进行后处理操作,结合屏幕边缘特征筛选出图像中四个屏幕角点,并且经过仿射变换进行倾斜角度矫正,得到最终的屏幕内容图像。
2.根据权利要求1所述的一种基于语义指导的自然场景下屏幕区域检测方法,其特征在于,所构建的一种基于语义指导的边缘检测网络包括特征提取模块、图像分割模块、图像边缘检测模块以及语义指导融合模块,其中,图像分割模块通过反卷积构建一条扩展路径提取图像语义信息特征以及图像分割;图像边缘检测模块通过本发明提出的具有注意力机制的多尺度特征融合模块(Feature Fusion Module)来进行边缘特征提取以及融合;语义指导融合模块将图像分割模块提取到的语义特征与图像边缘检测模块的边缘特征进行融合,得到语义指导下的精细化边缘图像。
3.根据权利要求2所述的一种基于语义指导的边缘检测网络,其特征在于,特征提取模块由去掉VGG16的全连接层后构成的全卷积网络组成,并且为了在不丢失大量局部信息的情况下增大网络的感受野,在最后两层卷积层中加入了混合膨胀卷积(Hybrid Dilated Convolution)的方法,在卷积层中设置一组三个不同膨胀率(Dilation Rate)的卷积核依次进行卷积,能够减少膨胀卷积产生的空洞并增大感受野。
4.根据权利要求2所述的一种基于语义指导的边缘检测网络,其特征在于,图像边缘检测模块中通过具有注意力机制的多尺度特征融合模块(Feature Fusion Module)进行图像特征融合,此模块使用SE Block与ResneXt Block相结合得到的SE ResneXt模块。主干网络中每一层Block块的不同尺度的特征图输出在进入多尺度特征融合模块之后,都经过SE ResneXt模块,先进行具有残差组卷积结构的ResnetXt操作丰富输入特征图语义信息,然后进行Squeeze and Excitation(SE)操作,赋予各通道的一个可学习权重,使得模型主动学习特征图各通道的重要程度,并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
5.根据权利要求2所述的一种基于语义指导的边缘检测网络,其特征在于,语义指导融合模块通过利用边缘检测模块以及图像分割模块提取到的图像特征进行融合,利用图像分割模块提取到的语义特征指导模型输出更加精细的图像边缘特征。在语义指导融合模块中定义了新的模型损失函数融合两种输出特征信息并在边缘标签的指导下进行训练,其新定义的损失函数表示为:L=Lfusion(f(Fseg,Fedge|X;W);Wf)
其中Fseg为图像分割模块提取到的语义特征,Fedge为图像边缘检测模块提取到的边缘特征,f(*|W)表示特征图融合操作,W表示其中卷积操作的参数。Lfusion(F;Wf)表示采用的交叉熵函数,表述为:其中,Fi为特征图中的第i个像素,Pr(yi|Fi)为在像素yi上的分类置信度,N为图像像素总数,Wf为图像分割任务中训练参数的集合。
6.根据权利要求1所述的一种基于语义指导的自然场景下屏幕区域检测方法,其特征在于,对于屏幕边缘图像的后处理操作中主要包括:基于霍夫变换对屏幕边缘图像进行直线检测,并且去除重合直线,将直线交点排序作为集合,每次取四个点计算周长以及所围面积,满足两者最大的便认为是自然场景下的屏幕边缘角点。最后使用屏幕角点以及仿射变换进行屏幕倾斜角度矫正,最终得到屏幕内容图像。