全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210955111.2 (22)申请日 2022.08.10 (71)申请人 哈尔滨航天恒星数据系统科技有限 公司 地址 150028 黑龙江省哈尔滨市高新 技术 产业开发区科技创新城创新路1616号 5号楼 (72)发明人 吴敌 侯伟 张丽丽 葛宝玉  周全 李慧子 邵文杰 吴玥  (74)专利代理 机构 北京君恒知识产权代理有限 公司 11466 专利代理师 姜有维 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/52(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的视频监控中行人小目 标检测方法 (57)摘要 本发明公开了一种基于深度学习的视频监 控中行人小目标检测方法, 包 括: 步骤S1、 构建行 人小目标数据集, 步骤S2、 对YOLOv5检测模型进 行改进, 步骤S3、 利用步骤S1中自组建数据集, 以 及步骤S2改进的YOLOv5检测模型进行训练、 测 试, 评价, 将检测模型应用于监控视频检测中。 本 发明的方法满足现有视频监控中对检测精度及 检测速度的要求, 节省了大量的人工成本, 可 以 有效提升在边境地区视频监控中占比较小的行 人目标检测准确率。 权利要求书1页 说明书6页 附图2页 CN 115240119 A 2022.10.25 CN 115240119 A 1.一种基于深度学习的视频监控中行 人小目标检测方法, 其特 征在于, 包括: 步骤S1、 构建行 人小目标 数据集 采集图像数据并进行筛选及预处理, 对预处理后的图像进行标注、 分类, 形成固定比例 的自组建数据集; 步骤S2、 对YOLOv5检测模型进行改进 首先在YOLOv5检测模型的骨干网络中引入Transformer多头自注意力机制, 其次在颈 部网络中对特征图上采样操作, 上采样处理后与骨干网络特征图进行融合生成新的特征 层, 改进网络结构及网络连接方式; 步骤S3、 利用步骤S1中自组建数据 集, 以及步骤S2改进的YOLOv5检测模型进行训练、 测 试, 评价, 将检测模型应用于监控视频检测中。 2.根据权利要求1所述的一种基于深度学习的视频监控中行人小目标检测方法, 其特 征在于, 步骤S1中, 采集筛选数据集的方法为: 从公开数据集中收集行人小目标图像, 定义 行人小目标 范围, 筛选出符合条件图像。 3.根据权利要求1所述的一种基于深度学习的视频监控中行人小目标检测方法, 其特 征在于, 步骤S1中, 图像预处理和分类包括: 图像进行旋转、 剪裁、 增强处理以扩充数据集; 标注方式为使用Label Img工具进行 标注、 分类, 然后将数据划分为训练集、 验证集、 测试集。 4.根据权利要求1所述的一种基于深度学习的视频监控中行人小目标检测方法, 其特 征在于, 步骤S2中, 改进的YOLOv5检测模型包括输入端、 骨干网络、 颈 部网络和检测层。 5.根据权利要求4所述的一种基于深度学习的视频监控中行人小目标检测方法, 其特 征在于, 步骤S2的具体实施方法是: 步骤S2.1、 对图像进行Mosaic数据增强、 自适应锚框计算、 自适应图片缩放处理, 定义 输入图像 格式为640 ×640×3, 处理后作为骨干网络 输入; 步骤S2.2、 骨干网络部分包括Focus结构、 CBS结构、 C3结构、 SSP结构和C3TR结构, 其中 C3TR结构为引入Transformer多头自主自注意力机制对原有C3结构改进, 处理后获得不同 尺度特征图, 作为颈 部网络输入; 步骤S2.3、 颈部网络包括使用FPN+PAN结构进行特征融合, 改进颈部网络, 增加特征 图 的上采样 操作, 通过 上采样与特 征融合后, 获取新的3个尺度张量数据, 作为检测层输入; 步骤S2.4、 将3个尺度的张量输入Prediction部分, 基于损失函数及反向传播进行梯度 计算, 具体采用CIOU_LOSS+DIOU_nms进行损失函数计算和非极大值抑制, 得到3个预测层数 据。 6.根据权利要求4所述的一种基于深度学习的视频监控中行人小目标检测方法, 其特 征在于, 步骤S2.3中, 改进的骨干网络中C3TR结构方法是: 在原有骨干网络中的最后一层C3 结构中引入Transformer多头自注意力 机制, 将Resuint组件更换为TransformerBlock, 变 为C3TR结构; TransformerBlock结构使用q,k,v均是长度c的向量, 通过n的单头注意力拼接 后得到长度nc的行向量, 经 过线性层运 算后再得到长度c的向量。 7.根据权利要求4所述的一种基于深度学习的视频监控中行人小目标检测方法, 其特 征在于, 步骤S2.3中, 改进的颈部网络获取3个尺度张量数据方法是: 增加上采样操作, 从新 组织网络连接方式; 在网络第17层增加上采样处理后与骨干网络第2层特征图进行融合生 成160×160×255特征层。权 利 要 求 书 1/1 页 2 CN 115240119 A 2一种基于深度学习的视频 监控中行人小目标 检测方法 技术领域 [0001]本发明涉及深度学习和目标检测领域技术, 尤其是种基于深度学习的视频监控中 行人小目标检测方法。 背景技术 [0002]目前我国区域视频监控中, 通常采用高空长焦摄像头, 拍摄的图像中监测范围广, 待识别的行人图像占比小、 分辨率低特征不明显、 边境地区背 景复杂等。 现有的目标检测方 法检测精度低, 容易出现漏检误检的情况, 因此当前的视频监控系统需要 人工核验, 视频数 据量大, 需要人工成本高, 人工检测效率低, 严重影响监控效率。 基于深度学习的目标检测 技术是计算机视觉领域中最重要的研究方向之一。 随着人工智能技术发展以及计算机硬件 并行计算不断升级迭代, 目标检测在从传统的特征提取方法, 逐渐发展到使用深度学习技 术进行检测。 深度学习目标检测领域包括以Y OLO为代表的单阶段目标检测速度快、 精度高、 模型精简便 于改进, 但对于低分辨 率弱小目标检测精度低, 容 易出现漏检误检现象。 发明内容 [0003]本发明为了解决上述现有技术问题, 提出一种基于深度学习的视频监控中行人小 目标检测方法。 [0004]本发明涉及一种基于深度学习的视频监控中行 人小目标检测方法, 包括: [0005]步骤S1、 构建行 人小目标 数据集 [0006]采集图像数据并进行筛选及预处理, 对预处理后的图像进行标注、 分类, 形成固定 比例的自组建数据集; [0007]步骤S2、 对YOLOv5检测模型进行改进 [0008]首先在YOLOv5检测模型 的骨干网络中引入Transformer多头自注意力机制, 其次 在颈部网络中对特征图上采样操作, 上采样处理后与骨干网络特征图进 行融合生成新的特 征层, 改进网络结构及网络连接方式; [0009]步骤S3、 利用步骤S1中自组建数据集, 以及步骤S2改进的YOLOv5检测模型进行训 练、 测试, 评价, 将检测模型应用于监控视频检测中。 [0010]优先地, 步骤S1中, 采集筛选数据集的方法为: 从公开数据集中收集行人小目标图 像, 定义行 人小目标 范围, 筛选出符合条件图像。 [0011]优先地, 步骤S1中, 图像预处理和分类包括: 图像进行旋转、 剪裁、 增强处理以扩充 数据集; 标注方式为使用LabelImg工具进行标注、 分类, 然后将数据划分为训练集、 验证集、 测试集。 [0012]优先地, 步骤S2中, 改进的YOLOv5检测模型包括输入端、 骨干网络、 颈部网络和检 测层。 [0013]优先地, 步骤S2的具体实施方法是: [0014]S2.1、 对图像进行Mosaic数据增强、 自适应锚框计算、 自适应图片缩放处理, 定义说 明 书 1/6 页 3 CN 115240119 A 3

PDF文档 专利 一种基于深度学习的视频监控中行人小目标检测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的视频监控中行人小目标检测方法 第 1 页 专利 一种基于深度学习的视频监控中行人小目标检测方法 第 2 页 专利 一种基于深度学习的视频监控中行人小目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:17:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。