全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210896343.5 (22)申请日 2022.07.28 (71)申请人 杭州海宴科技有限公司 地址 310052 浙江省杭州市滨江区六和路 368号海创基地北楼三楼B12室 (72)发明人 叶利华 谢东福 刘燕  (74)专利代理 机构 杭州奥创知识产权代理有限 公司 33272 专利代理师 王佳健 (51)Int.Cl. G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G08B 31/00(2006.01) (54)发明名称 基于跨媒体的室外重点场所人群异常行为 预警系统和方法 (57)摘要 本发明涉及一种基于跨媒体的室外重点场 所人群异常行为预警系统和方法。 本发明采用跨 媒体即音视频媒体, 提取固定片段内的音频烈度 信息、 视频人群聚集信息以及肢体动作信息, 实 现室外重点场所人群异常行为预警方法。 该方法 除避免了现有方法无法区别音频是否为人声以 及人声烈度、 无法在室外监控场景下自适应计算 人员聚集度以及无法快速识别聚集人员 是否变 化, 采用跨媒体融合方法提高了复杂环境室外下 重点场所人群异常行为识别能力, 大幅降低误识 率。 权利要求书3页 说明书9页 附图3页 CN 115240142 A 2022.10.25 CN 115240142 A 1.基于跨媒体的室外重点场所人群异常行为预警方法, 其特征在于该方法包括以下步 骤: S1.配置云台摄 像机, 摄像机按照预设值的点 位, 定时巡检各 预置点位; S2.配置定向拾音器, 拾音器拾音方向跟随摄 像机转动, 实现定向音频 数据采集; S3.定时间长度采集预置点 位视角范围内的音视频 数据混合数据流; S4.服务器接收音视频 数据并分离, 获得视频流和音频流数据; S5.提取视频流的关键帧, 对预设区域进行 人体和头 部目标检测; S6.对检测出的人体和头部分别采用自适应聚集密度评估算法得到监控区域范围内的 最高人群密度值; S7.采用背景声 音去除算法对音频 数据进行 预处理; S8.将固定时间长度的音频 数据分割为指定采集频率的片段 数据; S9.将音频片段数据通过深度学习的卷积神经网络模型进行分类, 确定该音频片段数 据是否为人的说话音频; S10.根据固定时间长度内的所有音频片段数据的音频分类结果进行判断, 通过人声的 比率是否超过设定阈值, 确定 本段音频 是否为人的说话音频; 假如不是 人的说话声则确定为背景音, 采用原 始音频计算背景音频声 音强度等级; S11.针对判断为人说话的音频, 采用声音强度计算算法, 对整段音频采用设定频率计 算片内的声 音强度, 得到整个固定时间长度内音频强度值列表; S12.将音频强度值列表输入音频烈度判别模型, 得到人声烈度等级; S13.根据背景音频声 音强度等级, 自动调整人群密度阈值; S14.将自动调整后的人群密度阈值与S6中得到最高人群密度值进行比较, 如果S6中得 到最高人群密度值大于等于人群密度阈值, 则对最高人群密度区域采用人员变动识别算 法, 判断这个时段内, 该区域的大多数 人员是否有变化; S15.融合S12得到人声烈度等级、 S6中得到最高人群密度值以及S14人员变化判断结 果, 判断在摄 像机监控区域内是否出现争吵, 实现跨 媒体音视频流的处 理能力; S16.根据S15的结果, 判断是否满足预警要求, 假如需要预警, 输出预警类型并启动远 程喊话, 提前干预现场; S17.重复S3~S16上述 步骤完成室外 重点场所 人群异常行为的实时预警。 2.根据权利要求1所述的基于跨媒体的室外重点场所人群异常行为预警方法, 其特征 在于: S5中采用基于深度学习端到端的目标检测模型, 对目标检测模型利用FP16半精度计 算方法以及Tensor  RT加速技术实现在图像的预设区域中快速检测人体和 头部区域, 并输 出矩形区域 坐标。 3.根据权利要求2所述的基于跨媒体的室外重点场所人群异常行为预警方法, 其特征 在于: 根据人体或头部矩形区域坐标, 将多个人 的肩宽或人头的X方向的像素进行平均, 基 于均值像素估计人员位置以及人员之间的距离; 对检测区域内的人员距离进行归一化, 然后利用公式(1)计算出场景中人群的最高密 度值Smax(h):权 利 要 求 书 1/3 页 2 CN 115240142 A 2其中pi为第i个人的位置坐标, pj为第j个人的位置坐标, dist为欧式距离公式, N为人员 个数, D为设定阈值。 4.根据权利要求1所述的基于跨媒体的室外重点场所人群异常行为预警方法, 其特征 在于: S6中还包括: 调节摄像机焦距以及云台, 将摄像机拍摄区域定位到高密度人群范围, 拍摄更加清晰的视频 数据; 检测区域范围内的人体骨骼关键点, 将得到的多人骨骼关键点输入肢体冲突行为识别 模型, 判断是否存在肢体冲突行为。 5.根据权利要求1所述的基于跨媒体的室外重点场所人群异常行为预警方法, 其特征 在于: S9中将S8所获取的音频片段数据, 分别按顺序输入判断是否为人的说话音频的卷积 神经网络模型, 采用基于空间向量距离的中心间隔距离目标函数用于模型 的训练, 目标函 数J如公式(2)所示: 公式中 为不同声音类型的中心, cj为不等于 的其它声音类型的中心, 函数h(x)= max(x,0), K为声音类型个数, n为训练每批次的数量, OL为卷积神经网络的输出特征向量, mrg为最小距离约束参数。 6.根据权利要求1所述的基于跨媒体的室外重点场所人群异常行为预警方法, 其特征 在于: S14中采用人员变动识别算法, 得到不同时刻同一行人的位置坐标, 其目的在于确定 高密度人群是否为 流动人群, 该算法采用公式(3)实现: 式中dist为欧式距 离公式, N为人员个 数, D为设定阈值, pi(t)为第i个 人在t时刻的位置 坐标, r为平均移动距离 。 7.基于跨 媒体的室外 重点场所 人群异常行为预警系统, 其特 征在于, 包括: 视频数据采集模块, 由带有云台摄像机按照预设值的点位, 定时巡检各预置点位采集 监控区域范围内的视频 数据; 音频采集模块, 拾音器跟随摄 像机转动, 定向采集音频 数据; 音视频数据合成模块, 通过将音视频 数据按时间同步 合成音视频流, 实现网络传输; 音视频数据分离模块, 服务器接收网络传输的音视频数据并分离, 获得视频流和音频 流数据; 人体和头部目标检测模块, 对视频流解码后获得的帧图像, 在预设区域范围内检测所 有人体和头 部的位置坐标; 自适应人群聚集密度估算模块, 根据场景中人群的远近采用与距离相关的自适应聚集 密度算法估算人群密度; 背景声音去除模块, 对接收的音频 数据, 采用背景声 音去除算法, 去除背景声 音;权 利 要 求 书 2/3 页 3 CN 115240142 A 3

PDF文档 专利 基于跨媒体的室外重点场所人群异常行为预警系统和方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨媒体的室外重点场所人群异常行为预警系统和方法 第 1 页 专利 基于跨媒体的室外重点场所人群异常行为预警系统和方法 第 2 页 专利 基于跨媒体的室外重点场所人群异常行为预警系统和方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:17:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。