(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210410471.4
(22)申请日 2022.04.19
(71)申请人 湖北工业大 学
地址 430068 湖北省武汉市洪山区南李路
28号
(72)发明人 熊炜 孙鹏 赵迪 刘粤 陈鹏
张云良 李利荣 宋海娜
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 肖明洲
(51)Int.Cl.
G06V 30/412(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 10/44(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于深度卷积神经网络的场景文本检测方
法、 系统及设备
(57)摘要
本发明公开了一种基于深度卷积神经网络
的场景文本检测方法、 系统及设备, 首先将获取
的场景文本图像, 进行数据增强操作, 得到预定
大小的图像信息; 接着将预处理后的图像信息输
入深度卷积神经网络中, 提取图像特征; 然后采
用协调注 意力机制层将图像特征进行增强处理;
最后将增强后的特征图, 采用渐进尺度扩展层进
行后处理, 获得文本检测结果。 本发明通过在
ResNet50的骨干网络中引入校正卷积、 通道注意
力, 于提取的特征图后引入协调注意力, 有效地
扩大了网络感受空间, 避免了后续降维操作丢失
更多的语义信息, 降低了不同尺度的特征图自顶
向下融合导致的特征图失真程度, 使网络具有更
准确的鉴别区域; 通过平方Dice损失函数提升了
文本检测的准确性和精确性。
权利要求书3页 说明书7页 附图2页
CN 114724155 A
2022.07.08
CN 114724155 A
1.一种基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所述深度卷积神经
网络, 基于ResNet50网络结构, 将ResNet50网络中将3 ×3Conv卷积替换成自校正卷积, 然后
于卷积层C2‑C5后面嵌入通道注意力机制ECA层, 在特征融合后加入协调注意力机制层; 最后
增加渐进尺度扩展层对图像进行后处 理;
所述方法包括以下步骤:
步骤1: 将获取的场景文本图像, 进行 数据增强操作, 得到预定大小的图像信息;
步骤2: 将预处 理后的图像信息 输入所述深度卷积神经网络中, 提取图像特 征F;
步骤3: 采用协调注意力机制层将图像特 征F进行增强处 理;
步骤4: 将增强后的特 征图, 采用渐进尺度扩展层进行后处 理, 获得文本检测结果。
2.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 在
将ResNet50网络中将3 ×3Conv卷积替换成自校正卷积后, 于卷积层C2‑C5后面嵌入通道注意
力机制ECA层, 之后从每个ECA层提取不同尺度的特征图
其大小分别为原
输入图像的1/4、 1/8、 1/16、 1/32; 接着以特征金字塔网络FPN的方式自顶向下进行特征融合
操作: 使用1 ×1Conv对顶层特征图
卷积得到特征图P5; 而P2、 P3、 P4由相同层级的
经过1×1Conv卷积操作后与上一层级的特征图P3、 P4、 P5经过2倍上采样相加融
合得到; 最后将P2、 P3、 P4、 P5进行Concat操作得到融合后的特 征图F;
P2、 P3、 P4计算公式为:
Pn=Conv1×1(C2)+Upr2(Pn+1) (1)
式中n取2, 3, 4, Co nv1×1表示1×1卷积, Upr2表示用双向线性插值法实现的2倍上采样。
3.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所
述自校正卷积, 其卷积 操作过程包括以下3个步骤:
(1)将输入大小为C ×H×W的特征M, 分成M1、 M2, 其大小均为C/2 ×H×W; 其中, C、 H、 W分别
表示特征M的通道数、 高度和宽度;
(2)将大小为(C,C,3,3)的原卷积核K分成4个小卷积核K1、 K2、 K3、 K4, 其大小均为(C/2,C/
2,3,3), 用来收集不同类型的上下文信息; 卷积核K1、 K2、 K3在分支1中对M1进行自校正操作,
得到N1; 卷积核K4于分支2中对原尺度特征M2进行卷积操作, 以保留原始的空间背景信息, 得
到N2;
(3)拼接原 尺度空间输出 特征N1、 N2, 得到与输入M大小一 致特征N;
其中, 在分支1的自校正处理 中, 首先使用大小 为4×4平均池化层对特征M1进行下采样,
得M11; 再经过卷积核K1提取特征, 并进行上采样得M12, 将尺寸恢复到M1大小, 上采样方式为
双线性插值法; 后与M1相加, 使用Sigmoid激活函 数映射计 算出校正权重, 并与卷积核K2提取
特征后相乘进行 校正, 得M13; 最后通过 K3卷积操作得到该分支校正后的特 征N1;
M11=AvgPool(M1) (2)
M12=Upr2(F1(M11))=Upr2(M11*K1) (3)
M13=F2(M1)*σ(M1+M12)=M1*K2*σ(M1+M12) (4)
N1=F3(M13)=M13*K3 (5)
其中, Fi表示卷积核Ki的卷积操作, σ 为sigmo id函数, Upr2为2倍上采样。
4.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所权 利 要 求 书 1/3 页
2
CN 114724155 A
2述高效通道注意力机制, 对于输入的原始图像信息X, 经过全局平均池化得到未降维的信
息, 接着进行尺 寸为k的一维卷积操作, 然后经过sigmoid函数得到各通道的权重值, 在与 原
始输入信息相乘得到含有通道 注意力的图像信息
其中, |t|odd表示距离t最近的奇数, C1Dk表示核数为k的一维卷积操作, C为通道数, σ 为
sigmoid函数。
5.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所
述协调注 意力机制层, 对于给定输入X, 使用大小为(h,1)、 (1,w)池化层, 分别沿着横轴和纵
轴进行平均池化, 对每个通道于这两方向上进行编码; 在 横轴上通道c的输出为
在纵
轴上的输出为
接着连接这两特征映射, 并使用1 ×1Conv进行操作以及非线性映射, 得
到特征图f; 然后将特征图沿着空间维度拆分成两个张量gh, gw, 并与原输入相乘得到输出
f= δ(Conv1×1([zh,zw])) (10)
gh=σ(Conv1×1(fh)) (11)
gw=σ(Conv1×1(fw)) (12)
其中, i、 j表示输入X中像素坐标, H、 W表示输入X的高度和宽度, fh、 fw表示特征图f沿两
不同方向拆分后的特征图, [ ·,·]表示两个张量的拼接操作, C onv1×1表示1×1卷积, δ表示
非线性映射, σ 为sigmo id函数。
6.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所
述渐进尺度扩展层, 使用1 ×1Conv对增强后的
进行卷积操作得到不同尺度的文本实例核
S1至Sn, 采用渐进尺度扩展法对其进行后处理, 从最小文本实例核S1逐渐扩展到最大文本实
例核Sn, 在扩展的过程中Si+1中某一位置属于Si中同一文 本实例时, 将该位置进行合并, 对 于
存在不能确定像素的归属情况, 解决的原则是 先到先得。
7.根据权利要求1 ‑6任意一项所述的基于深度卷积神经网络的场景文本检测方法, 其
特征在于: 所述深度卷积神经网络, 是训练好的深度卷积神经网络; 训练过程中采用的损失
函数L由Lc和Ls两部分构成, ‑Lc是用来衡量未缩放时预测和真实标注之间文本实例的匹配
度, Ls则是用来衡量缩放后的匹配度;
L= λLc+(1‑λ )Ls (14)
其中, λ是Lc的权重系数;
损失函数Lc为:权 利 要 求 书 2/3 页
3
CN 114724155 A
3
专利 基于深度卷积神经网络的场景文本检测方法、系统及设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:04上传分享