专利基于深度卷积神经网络的场景文本检测方法、系统及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210410471.4 (22)申请日 2022.04.19 (71)申请人湖北工业大学地址 430068 湖北省武汉市洪山区南李路 28号 (72)发明人熊炜　孙鹏　赵迪　刘粤　陈鹏　张云良　李利荣　宋海娜　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师肖明洲 (51)Int.Cl. G06V 30/412(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称基于深度卷积神经网络的场景文本检测方法、系统及设备 (57)摘要本发明公开了一种基于深度卷积神经网络的场景文本检测方法、系统及设备，首先将获取的场景文本图像，进行数据增强操作，得到预定大小的图像信息；接着将预处理后的图像信息输入深度卷积神经网络中，提取图像特征；然后采用协调注意力机制层将图像特征进行增强处理；最后将增强后的特征图，采用渐进尺度扩展层进行后处理，获得文本检测结果。本发明通过在 ResNet50的骨干网络中引入校正卷积、通道注意力，于提取的特征图后引入协调注意力，有效地扩大了网络感受空间，避免了后续降维操作丢失更多的语义信息，降低了不同尺度的特征图自顶向下融合导致的特征图失真程度，使网络具有更准确的鉴别区域；通过平方Dice损失函数提升了文本检测的准确性和精确性。权利要求书3页说明书7页附图2页 CN 114724155 A 2022.07.08 CN 114724155 A 1.一种基于深度卷积神经网络的场景文本检测方法，其特征在于：所述深度卷积神经网络，基于ResNet50网络结构，将ResNet50网络中将3 ×3Conv卷积替换成自校正卷积，然后于卷积层C2‑C5后面嵌入通道注意力机制ECA层，在特征融合后加入协调注意力机制层；最后增加渐进尺度扩展层对图像进行后处理；所述方法包括以下步骤：步骤1：将获取的场景文本图像，进行数据增强操作，得到预定大小的图像信息；步骤2：将预处理后的图像信息输入所述深度卷积神经网络中，提取图像特征F；步骤3：采用协调注意力机制层将图像特征F进行增强处理；步骤4：将增强后的特征图，采用渐进尺度扩展层进行后处理，获得文本检测结果。 2.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：在将ResNet50网络中将3 ×3Conv卷积替换成自校正卷积后，于卷积层C2‑C5后面嵌入通道注意力机制ECA层，之后从每个ECA层提取不同尺度的特征图其大小分别为原输入图像的1/4、 1/8、 1/16、 1/32；接着以特征金字塔网络FPN的方式自顶向下进行特征融合操作：使用1 ×1Conv对顶层特征图卷积得到特征图P5；而P2、 P3、 P4由相同层级的经过1×1Conv卷积操作后与上一层级的特征图P3、 P4、 P5经过2倍上采样相加融合得到；最后将P2、 P3、 P4、 P5进行Concat操作得到融合后的特征图F； P2、 P3、 P4计算公式为： Pn＝Conv1×1(C2)+Upr2(Pn+1) (1) 式中n取2， 3， 4， Co nv1×1表示1×1卷积， Upr2表示用双向线性插值法实现的2倍上采样。 3.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述自校正卷积，其卷积操作过程包括以下3个步骤： (1)将输入大小为C ×H×W的特征M，分成M1、 M2，其大小均为C/2 ×H×W；其中， C、 H、 W分别表示特征M的通道数、高度和宽度； (2)将大小为(C,C,3,3)的原卷积核K分成4个小卷积核K1、 K2、 K3、 K4，其大小均为(C/2,C/ 2,3,3)，用来收集不同类型的上下文信息；卷积核K1、 K2、 K3在分支1中对M1进行自校正操作，得到N1；卷积核K4于分支2中对原尺度特征M2进行卷积操作，以保留原始的空间背景信息，得到N2； (3)拼接原尺度空间输出特征N1、 N2，得到与输入M大小一致特征N；其中，在分支1的自校正处理中，首先使用大小为4×4平均池化层对特征M1进行下采样，得M11；再经过卷积核K1提取特征，并进行上采样得M12，将尺寸恢复到M1大小，上采样方式为双线性插值法；后与M1相加，使用Sigmoid激活函数映射计算出校正权重，并与卷积核K2提取特征后相乘进行校正，得M13；最后通过 K3卷积操作得到该分支校正后的特征N1； M11＝AvgPool(M1) (2) M12＝Upr2(F1(M11))＝Upr2(M11*K1) (3) M13＝F2(M1)*σ(M1+M12)＝M1*K2*σ(M1+M12) (4) N1＝F3(M13)＝M13*K3 (5) 其中， Fi表示卷积核Ki的卷积操作， σ 为sigmo id函数， Upr2为2倍上采样。 4.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所权　利　要　求　书 1/3 页 2 CN 114724155 A 2述高效通道注意力机制，对于输入的原始图像信息X，经过全局平均池化得到未降维的信息，接着进行尺寸为k的一维卷积操作，然后经过sigmoid函数得到各通道的权重值，在与原始输入信息相乘得到含有通道注意力的图像信息其中， |t|odd表示距离t最近的奇数， C1Dk表示核数为k的一维卷积操作， C为通道数， σ 为 sigmoid函数。 5.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述协调注意力机制层，对于给定输入X，使用大小为(h,1)、 (1,w)池化层，分别沿着横轴和纵轴进行平均池化，对每个通道于这两方向上进行编码；在横轴上通道c的输出为在纵轴上的输出为接着连接这两特征映射，并使用1 ×1Conv进行操作以及非线性映射，得到特征图f；然后将特征图沿着空间维度拆分成两个张量gh， gw，并与原输入相乘得到输出 f＝ δ(Conv1×1([zh,zw])) (10) gh＝σ(Conv1×1(fh)) (11) gw＝σ(Conv1×1(fw)) (12) 其中， i、 j表示输入X中像素坐标， H、 W表示输入X的高度和宽度， fh、 fw表示特征图f沿两不同方向拆分后的特征图， [ ·,·]表示两个张量的拼接操作， C onv1×1表示1×1卷积， δ表示非线性映射， σ 为sigmo id函数。 6.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述渐进尺度扩展层，使用1 ×1Conv对增强后的进行卷积操作得到不同尺度的文本实例核 S1至Sn，采用渐进尺度扩展法对其进行后处理，从最小文本实例核S1逐渐扩展到最大文本实例核Sn，在扩展的过程中Si+1中某一位置属于Si中同一文本实例时，将该位置进行合并，对于存在不能确定像素的归属情况，解决的原则是先到先得。 7.根据权利要求1 ‑6任意一项所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述深度卷积神经网络，是训练好的深度卷积神经网络；训练过程中采用的损失函数L由Lc和Ls两部分构成， ‑Lc是用来衡量未缩放时预测和真实标注之间文本实例的匹配度， Ls则是用来衡量缩放后的匹配度； L＝ λLc+(1‑λ )Ls (14) 其中， λ是Lc的权重系数；损失函数Lc为：权　利　要　求　书 2/3 页 3 CN 114724155 A 3

专利 基于深度卷积神经网络的场景文本检测方法、系统及设备

专利基于深度卷积神经网络的场景文本检测方法、系统及设备