(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221012390 0.X
(22)申请日 2022.02.10
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 杜金莲 李攀 张潇 苏航 赵青
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 沈波
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的小目标检测方法
(57)摘要
本发明公开了一种基于深度学习的小目标
检测方法, 包括以下步骤: 对训练数据中的小目
标进行数据增强。 通过特征提取网络对处理后的
图像进行特征提取, 将特征图通过级联进行融合
作为特征图。 特征图经过通道注 意力模块加权后
再经过空间注 意力模块得到最终的特征图。 将所
提取的潜在目标根据面积大小划分为常规目标
与小目标。 对小目标区域进行 RoIAlign区域池 化
操作, 对池化结果进行类别判断与位置回归 得到
最终检测结果; 使用混合注意力模块, 提升RPN区
域提取能力, 将提取的区域按照面积大小区分为
小目标与其他目标两类, 对小目标区域使用
RoIAlign区域池化, 充分利用了小目标区域的特
征信息, 从而在减少计算量增加的同时提升了网
络对小目标的检测能力。
权利要求书2页 说明书5页 附图3页
CN 114494728 A
2022.05.13
CN 114494728 A
1.一种基于深度学习的小目标检测方法, 其特 征在于: 包括以下步骤:
步骤一: 对训练数据中的小目标进行数据增强, 使用的增强方法包括对数据集中图片
进行缩放, 翻转, 色域扭曲, 小目标实例的复制和Mosaic增强;
步骤二: 通过特征提取网络对步骤一处理后的图像进行特征提取, 特征提取网络使用
ResNet50作为主干网络, 将第三阶段与第四阶段的特 征图通过级联进行融合作为特 征图;
步骤三: 对步骤二中生成的特征图使用混合注意力 机制提高网络对特征图中的前景与
背景的区别能力, 这里 的混合注意力机制使用串联形式, 首先特征图经过通道注意力模块
加权后再 经过空间注意力模块得到最终的特 征图;
步骤四: 使用RPN区域提取网络提取步骤三得到的特征图中潜在目标的区域, 将所提取
的潜在目标根据面积大小划分为常规目标与小目标; 将区域大小于等于64 ×64的区域作为
小目标区域, 大于 64×64的目标区域作为大目标区域;
步骤五: 对步骤四中得到的小目标 区域进行RoI Align区域池化操作, 其他目标区域进
行RoI Pooling区域池化操作, 对 池化结果进行类别判断与位置回归得到最终检测结果。
2.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 首先对
训练数据集中的图像数据进行数据增强, 使用的增强方法有缩放、 翻转、 色域扭曲、 小目标
实例的复制和Mosaic增强五种手段; 其次, 使用ResNet50特征提取网络经过数据增强后的
图像进行特征提取, 特别指出的是, 在特征提取阶段使用了特征融合技术; 特征图使用混合
注意力机制提高网络对特征图中的前景与背景的区别能力, 混合注意力机制使用 串联形
式; 然后, 使用RPN区域提取网络对 经过注意力模块处理后的特征图进 行潜在目标的区域提
取, 将所提取 的潜在目标区域根据面积大小划分为 目标与小目标, 区分常规 目标小目标 的
阈值为64 ×64; 最后对得到的目标区域进行RoI Pooling区域池化操作, 对小目标区域进行
RoI Align区域池化操作, RoI Align区域池化解决网络处理流程中两次量化取整所造成的
特征损失问题, 从而提高对小目标的检测能力, 最后将池化结果进行类别判断与位置回归
得到最终检测结果。
3.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 特征提
取网络包括:
ResNet50整体结构: ResNet50网络总共有五个阶段, 第一阶段包括一个卷积核为7的卷
积层和一个池化核为3步长为2的最大池化层; 第二阶段到第五阶段结构相类似, 包含一个
卷积块和若干个标识 块, 标识块的数量分别为2,3,5,2; 其中卷积块的输入维度与输出维度
不一致, 用于改变网络的维度, 标识 块的输入维度与输出维度相一致, 使用串联从而加深网
络的深度。
4.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 特征融
合阶段: 将阶段三与阶段四所生成的特征图进行特征融合, 从而增强特征图的细节信息与
语义信息; 特征融合采用像素相加或者通道级联操作, 考虑到像素直接相加带来的负面影
响, 采用通道级联方式进行特征融合; 一张尺 寸大小为600 ×600的三通道图片解释如下: 该
三通道图片在经过阶段三后会得到宽高为75, 通道数为512的特征图C1, 经过阶段四后会得
到宽高为38, 通道数为1024的特征图C2, 将特征图C1的尺寸通过最大池化调整为特征图C2的
尺寸大小得到特征图C3, 然后将特征图C2与特征图C3在通道方向进行通道串 联, 最后将串联
后的特征图通过1 ×1卷积进行通道数的调整操作得到最终的融合特 征图C。权 利 要 求 书 1/2 页
2
CN 114494728 A
25.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 注意力
模块包括:
使用注意力机制来使网络自动判断特征图中重要的通道和位置; 采用注意力模块CBAM
的串联结构, 首先为通道注意力模块用于判断特征图通道的重要性, 其次为空间注意力模
块用于判断特 征图空间位置的重要性, 具体步骤如下:
步骤一: 输入特征图F分别经过通道注意力模块的最大池化块与平均池化块处理; 以最
大池化块为例, 特征图F首先经过全局最大池化处理得到压缩后的通道信息, 形状由原 来的
1024×38×38变为1024 ×1×1, 然后使用卷积核大小为k的一维卷积对压缩后的通道信息
进行聚合, 由于卷积具有参数共享的性质, 与常规通道注意力中使用全连层相比, 使用一 维
卷积可以有效减少模块的参数量, 其中卷积核大小k由以下公式确定, 其中C为特征图的通
道数:
步骤二: 将步骤一得到的经过全最大池化块与平均池化块处理 的通道聚合信 息进行逐
像素相加操作之后通过sigmoid非线性激活得到各个通道重要性的权值, 然后将其与原特
征图F进行 逐像素相乘操作得到经 过通道注意力模块加强后的特 征图F1;
步骤三: 将步骤二得到特征图F1进行空间注意力模块处理; 特征图F1在通道维度上分别
经过全局最大池化和全局均值池化处理得到压缩后的空间信息, 形状由原 来的1024×38×
38变为1×38×38, 然后将池化结果在通道维度上进行级 联操作得到形状为2 ×38×38的压
缩信息, 之后使用卷积核 大小为7的二维卷积对压缩后的空间信息进 行聚合得到形状为 1×
38×38的聚合信息;
步骤四: 将步骤三得到的空间聚合信息进行逐像素相加操作之后通过sigmoid非线性
激活得到空间重要性的权值, 然后将其与原特征图F1进行逐像素相乘操作得到经过空间注
意力模块加强后的特 征图F2。
6.根据权利要求书1所述的一种基于深度学习的小目标检测方法, 其特征在于: 区域提
取网络, 包括以下步骤:
步骤一: 将上述经过注意力模块处理的特征图进行特征整合, 以增强鲁棒性, 操作为经
过一个卷积核大小为3的卷积层处 理;
步骤二: 在 特征图上铺设m个先验框, 这些先验框尺寸的集合为{8,16, 32}, 宽高比的集
合为{0.5,1,2}, 即每 个特征点对应9个不同的先验框;
步骤三: 判断先验框是前景或者背景, 即先验框内是否包含目标, 这里使用1 ×1卷积获
得通道数为2 ×9的信息矩阵, 用于预测特征图上每个特征点上的9个先验框是否包含目标,
然后经过softmax分类得到前 景先验框;
步骤四: 对先验框进行坐标调整, 使用1 ×1卷积获得通道数为4 ×9的信息矩阵, 用于预
测特征图上每 个特征点上的9个先验框的位置坐标的变化;
步骤五: 对步骤三和步骤四所得到的区域进行筛选, 防止所提取的区域过小或者超出
边界, 按照softmax得分进 行排序取出对应的建议框, 并对建议框使用非极大值抑制用于去
重得到最终的目标区域。权 利 要 求 书 2/2 页
3
CN 114494728 A
3
专利 一种基于深度学习的小目标检测方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:12:11上传分享