全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210410471.4 (22)申请日 2022.04.19 (71)申请人 湖北工业大 学 地址 430068 湖北省武汉市洪山区南李路 28号 (72)发明人 熊炜 孙鹏 赵迪 刘粤 陈鹏  张云良 李利荣 宋海娜  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 肖明洲 (51)Int.Cl. G06V 30/412(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称 基于深度卷积神经网络的场景文本检测方 法、 系统及设备 (57)摘要 本发明公开了一种基于深度卷积神经网络 的场景文本检测方法、 系统及设备, 首先将获取 的场景文本图像, 进行数据增强操作, 得到预定 大小的图像信息; 接着将预处理后的图像信息输 入深度卷积神经网络中, 提取图像特征; 然后采 用协调注 意力机制层将图像特征进行增强处理; 最后将增强后的特征图, 采用渐进尺度扩展层进 行后处理, 获得文本检测结果。 本发明通过在 ResNet50的骨干网络中引入校正卷积、 通道注意 力, 于提取的特征图后引入协调注意力, 有效地 扩大了网络感受空间, 避免了后续降维操作丢失 更多的语义信息, 降低了不同尺度的特征图自顶 向下融合导致的特征图失真程度, 使网络具有更 准确的鉴别区域; 通过平方Dice损失函数提升了 文本检测的准确性和精确性。 权利要求书3页 说明书7页 附图2页 CN 114724155 A 2022.07.08 CN 114724155 A 1.一种基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所述深度卷积神经 网络, 基于ResNet50网络结构, 将ResNet50网络中将3 ×3Conv卷积替换成自校正卷积, 然后 于卷积层C2‑C5后面嵌入通道注意力机制ECA层, 在特征融合后加入协调注意力机制层; 最后 增加渐进尺度扩展层对图像进行后处 理; 所述方法包括以下步骤: 步骤1: 将获取的场景文本图像, 进行 数据增强操作, 得到预定大小的图像信息; 步骤2: 将预处 理后的图像信息 输入所述深度卷积神经网络中, 提取图像特 征F; 步骤3: 采用协调注意力机制层将图像特 征F进行增强处 理; 步骤4: 将增强后的特 征图, 采用渐进尺度扩展层进行后处 理, 获得文本检测结果。 2.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 在 将ResNet50网络中将3 ×3Conv卷积替换成自校正卷积后, 于卷积层C2‑C5后面嵌入通道注意 力机制ECA层, 之后从每个ECA层提取不同尺度的特征图 其大小分别为原 输入图像的1/4、 1/8、 1/16、 1/32; 接着以特征金字塔网络FPN的方式自顶向下进行特征融合 操作: 使用1 ×1Conv对顶层特征图 卷积得到特征图P5; 而P2、 P3、 P4由相同层级的 经过1×1Conv卷积操作后与上一层级的特征图P3、 P4、 P5经过2倍上采样相加融 合得到; 最后将P2、 P3、 P4、 P5进行Concat操作得到融合后的特 征图F; P2、 P3、 P4计算公式为: Pn=Conv1×1(C2)+Upr2(Pn+1)                 (1) 式中n取2, 3, 4, Co nv1×1表示1×1卷积, Upr2表示用双向线性插值法实现的2倍上采样。 3.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所 述自校正卷积, 其卷积 操作过程包括以下3个步骤: (1)将输入大小为C ×H×W的特征M, 分成M1、 M2, 其大小均为C/2 ×H×W; 其中, C、 H、 W分别 表示特征M的通道数、 高度和宽度; (2)将大小为(C,C,3,3)的原卷积核K分成4个小卷积核K1、 K2、 K3、 K4, 其大小均为(C/2,C/ 2,3,3), 用来收集不同类型的上下文信息; 卷积核K1、 K2、 K3在分支1中对M1进行自校正操作, 得到N1; 卷积核K4于分支2中对原尺度特征M2进行卷积操作, 以保留原始的空间背景信息, 得 到N2; (3)拼接原 尺度空间输出 特征N1、 N2, 得到与输入M大小一 致特征N; 其中, 在分支1的自校正处理 中, 首先使用大小 为4×4平均池化层对特征M1进行下采样, 得M11; 再经过卷积核K1提取特征, 并进行上采样得M12, 将尺寸恢复到M1大小, 上采样方式为 双线性插值法; 后与M1相加, 使用Sigmoid激活函 数映射计 算出校正权重, 并与卷积核K2提取 特征后相乘进行 校正, 得M13; 最后通过 K3卷积操作得到该分支校正后的特 征N1; M11=AvgPool(M1)                           (2) M12=Upr2(F1(M11))=Upr2(M11*K1)                (3) M13=F2(M1)*σ(M1+M12)=M1*K2*σ(M1+M12)       (4) N1=F3(M13)=M13*K3                       (5) 其中, Fi表示卷积核Ki的卷积操作, σ 为sigmo id函数, Upr2为2倍上采样。 4.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所权 利 要 求 书 1/3 页 2 CN 114724155 A 2述高效通道注意力机制, 对于输入的原始图像信息X, 经过全局平均池化得到未降维的信 息, 接着进行尺 寸为k的一维卷积操作, 然后经过sigmoid函数得到各通道的权重值, 在与 原 始输入信息相乘得到含有通道 注意力的图像信息 其中, |t|odd表示距离t最近的奇数, C1Dk表示核数为k的一维卷积操作, C为通道数, σ 为 sigmoid函数。 5.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所 述协调注 意力机制层, 对于给定输入X, 使用大小为(h,1)、 (1,w)池化层, 分别沿着横轴和纵 轴进行平均池化, 对每个通道于这两方向上进行编码; 在 横轴上通道c的输出为 在纵 轴上的输出为 接着连接这两特征映射, 并使用1 ×1Conv进行操作以及非线性映射, 得 到特征图f; 然后将特征图沿着空间维度拆分成两个张量gh, gw, 并与原输入相乘得到输出 f= δ(Conv1×1([zh,zw]))                        (10) gh=σ(Conv1×1(fh))                           (11) gw=σ(Conv1×1(fw))                           (12) 其中, i、 j表示输入X中像素坐标, H、 W表示输入X的高度和宽度, fh、 fw表示特征图f沿两 不同方向拆分后的特征图, [ ·,·]表示两个张量的拼接操作, C onv1×1表示1×1卷积, δ表示 非线性映射, σ 为sigmo id函数。 6.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法, 其特征在于: 所 述渐进尺度扩展层, 使用1 ×1Conv对增强后的 进行卷积操作得到不同尺度的文本实例核 S1至Sn, 采用渐进尺度扩展法对其进行后处理, 从最小文本实例核S1逐渐扩展到最大文本实 例核Sn, 在扩展的过程中Si+1中某一位置属于Si中同一文 本实例时, 将该位置进行合并, 对 于 存在不能确定像素的归属情况, 解决的原则是 先到先得。 7.根据权利要求1 ‑6任意一项所述的基于深度卷积神经网络的场景文本检测方法, 其 特征在于: 所述深度卷积神经网络, 是训练好的深度卷积神经网络; 训练过程中采用的损失 函数L由Lc和Ls两部分构成, ‑Lc是用来衡量未缩放时预测和真实标注之间文本实例的匹配 度, Ls则是用来衡量缩放后的匹配度; L= λLc+(1‑λ )Ls                           (14) 其中, λ是Lc的权重系数; 损失函数Lc为:权 利 要 求 书 2/3 页 3 CN 114724155 A 3

PDF文档 专利 基于深度卷积神经网络的场景文本检测方法、系统及设备

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度卷积神经网络的场景文本检测方法、系统及设备 第 1 页 专利 基于深度卷积神经网络的场景文本检测方法、系统及设备 第 2 页 专利 基于深度卷积神经网络的场景文本检测方法、系统及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。