全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221012390 0.X (22)申请日 2022.02.10 (71)申请人 北京工业大 学 地址 100124 北京市朝阳区平乐园10 0号 (72)发明人 杜金莲 李攀 张潇 苏航 赵青  (74)专利代理 机构 北京思海天达知识产权代理 有限公司 1 1203 专利代理师 沈波 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的小目标检测方法 (57)摘要 本发明公开了一种基于深度学习的小目标 检测方法, 包括以下步骤: 对训练数据中的小目 标进行数据增强。 通过特征提取网络对处理后的 图像进行特征提取, 将特征图通过级联进行融合 作为特征图。 特征图经过通道注 意力模块加权后 再经过空间注 意力模块得到最终的特征图。 将所 提取的潜在目标根据面积大小划分为常规目标 与小目标。 对小目标区域进行 RoIAlign区域池 化 操作, 对池化结果进行类别判断与位置回归 得到 最终检测结果; 使用混合注意力模块, 提升RPN区 域提取能力, 将提取的区域按照面积大小区分为 小目标与其他目标两类, 对小目标区域使用 RoIAlign区域池化, 充分利用了小目标区域的特 征信息, 从而在减少计算量增加的同时提升了网 络对小目标的检测能力。 权利要求书2页 说明书5页 附图3页 CN 114494728 A 2022.05.13 CN 114494728 A 1.一种基于深度学习的小目标检测方法, 其特 征在于: 包括以下步骤: 步骤一: 对训练数据中的小目标进行数据增强, 使用的增强方法包括对数据集中图片 进行缩放, 翻转, 色域扭曲, 小目标实例的复制和Mosaic增强; 步骤二: 通过特征提取网络对步骤一处理后的图像进行特征提取, 特征提取网络使用 ResNet50作为主干网络, 将第三阶段与第四阶段的特 征图通过级联进行融合作为特 征图; 步骤三: 对步骤二中生成的特征图使用混合注意力 机制提高网络对特征图中的前景与 背景的区别能力, 这里 的混合注意力机制使用串联形式, 首先特征图经过通道注意力模块 加权后再 经过空间注意力模块得到最终的特 征图; 步骤四: 使用RPN区域提取网络提取步骤三得到的特征图中潜在目标的区域, 将所提取 的潜在目标根据面积大小划分为常规目标与小目标; 将区域大小于等于64 ×64的区域作为 小目标区域, 大于 64×64的目标区域作为大目标区域; 步骤五: 对步骤四中得到的小目标 区域进行RoI  Align区域池化操作, 其他目标区域进 行RoI Pooling区域池化操作, 对 池化结果进行类别判断与位置回归得到最终检测结果。 2.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 首先对 训练数据集中的图像数据进行数据增强, 使用的增强方法有缩放、 翻转、 色域扭曲、 小目标 实例的复制和Mosaic增强五种手段; 其次, 使用ResNet50特征提取网络经过数据增强后的 图像进行特征提取, 特别指出的是, 在特征提取阶段使用了特征融合技术; 特征图使用混合 注意力机制提高网络对特征图中的前景与背景的区别能力, 混合注意力机制使用 串联形 式; 然后, 使用RPN区域提取网络对 经过注意力模块处理后的特征图进 行潜在目标的区域提 取, 将所提取 的潜在目标区域根据面积大小划分为 目标与小目标, 区分常规 目标小目标 的 阈值为64 ×64; 最后对得到的目标区域进行RoI  Pooling区域池化操作, 对小目标区域进行 RoI Align区域池化操作, RoI  Align区域池化解决网络处理流程中两次量化取整所造成的 特征损失问题, 从而提高对小目标的检测能力, 最后将池化结果进行类别判断与位置回归 得到最终检测结果。 3.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 特征提 取网络包括: ResNet50整体结构: ResNet50网络总共有五个阶段, 第一阶段包括一个卷积核为7的卷 积层和一个池化核为3步长为2的最大池化层; 第二阶段到第五阶段结构相类似, 包含一个 卷积块和若干个标识 块, 标识块的数量分别为2,3,5,2; 其中卷积块的输入维度与输出维度 不一致, 用于改变网络的维度, 标识 块的输入维度与输出维度相一致, 使用串联从而加深网 络的深度。 4.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 特征融 合阶段: 将阶段三与阶段四所生成的特征图进行特征融合, 从而增强特征图的细节信息与 语义信息; 特征融合采用像素相加或者通道级联操作, 考虑到像素直接相加带来的负面影 响, 采用通道级联方式进行特征融合; 一张尺 寸大小为600 ×600的三通道图片解释如下: 该 三通道图片在经过阶段三后会得到宽高为75, 通道数为512的特征图C1, 经过阶段四后会得 到宽高为38, 通道数为1024的特征图C2, 将特征图C1的尺寸通过最大池化调整为特征图C2的 尺寸大小得到特征图C3, 然后将特征图C2与特征图C3在通道方向进行通道串 联, 最后将串联 后的特征图通过1 ×1卷积进行通道数的调整操作得到最终的融合特 征图C。权 利 要 求 书 1/2 页 2 CN 114494728 A 25.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 注意力 模块包括: 使用注意力机制来使网络自动判断特征图中重要的通道和位置; 采用注意力模块CBAM 的串联结构, 首先为通道注意力模块用于判断特征图通道的重要性, 其次为空间注意力模 块用于判断特 征图空间位置的重要性, 具体步骤如下: 步骤一: 输入特征图F分别经过通道注意力模块的最大池化块与平均池化块处理; 以最 大池化块为例, 特征图F首先经过全局最大池化处理得到压缩后的通道信息, 形状由原 来的 1024×38×38变为1024 ×1×1, 然后使用卷积核大小为k的一维卷积对压缩后的通道信息 进行聚合, 由于卷积具有参数共享的性质, 与常规通道注意力中使用全连层相比, 使用一 维 卷积可以有效减少模块的参数量, 其中卷积核大小k由以下公式确定, 其中C为特征图的通 道数: 步骤二: 将步骤一得到的经过全最大池化块与平均池化块处理 的通道聚合信 息进行逐 像素相加操作之后通过sigmoid非线性激活得到各个通道重要性的权值, 然后将其与原特 征图F进行 逐像素相乘操作得到经 过通道注意力模块加强后的特 征图F1; 步骤三: 将步骤二得到特征图F1进行空间注意力模块处理; 特征图F1在通道维度上分别 经过全局最大池化和全局均值池化处理得到压缩后的空间信息, 形状由原 来的1024×38× 38变为1×38×38, 然后将池化结果在通道维度上进行级 联操作得到形状为2 ×38×38的压 缩信息, 之后使用卷积核 大小为7的二维卷积对压缩后的空间信息进 行聚合得到形状为 1× 38×38的聚合信息; 步骤四: 将步骤三得到的空间聚合信息进行逐像素相加操作之后通过sigmoid非线性 激活得到空间重要性的权值, 然后将其与原特征图F1进行逐像素相乘操作得到经过空间注 意力模块加强后的特 征图F2。 6.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 区域提 取网络, 包括以下步骤: 步骤一: 将上述经过注意力模块处理的特征图进行特征整合, 以增强鲁棒性, 操作为经 过一个卷积核大小为3的卷积层处 理; 步骤二: 在 特征图上铺设m个先验框, 这些先验框尺寸的集合为{8,16, 32}, 宽高比的集 合为{0.5,1,2}, 即每 个特征点对应9个不同的先验框; 步骤三: 判断先验框是前景或者背景, 即先验框内是否包含目标, 这里使用1 ×1卷积获 得通道数为2 ×9的信息矩阵, 用于预测特征图上每个特征点上的9个先验框是否包含目标, 然后经过softmax分类得到前 景先验框; 步骤四: 对先验框进行坐标调整, 使用1 ×1卷积获得通道数为4 ×9的信息矩阵, 用于预 测特征图上每 个特征点上的9个先验框的位置坐标的变化; 步骤五: 对步骤三和步骤四所得到的区域进行筛选, 防止所提取的区域过小或者超出 边界, 按照softmax得分进 行排序取出对应的建议框, 并对建议框使用非极大值抑制用于去 重得到最终的目标区域。权 利 要 求 书 2/2 页 3 CN 114494728 A 3

PDF文档 专利 一种基于深度学习的小目标检测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的小目标检测方法 第 1 页 专利 一种基于深度学习的小目标检测方法 第 2 页 专利 一种基于深度学习的小目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。