全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210368353.1 (22)申请日 2022.04.08 (71)申请人 南京地平线机 器人技术有限公司 地址 210046 江苏省南京市栖霞区经济技 术开发区兴智科技园A栋20层 (72)发明人 朱长宝  (74)专利代理 机构 北京思源智汇知识产权代理 有限公司 1 1657 专利代理师 李林莎 (51)Int.Cl. G06F 3/16(2006.01) G06V 40/16(2022.01) G06V 10/44(2022.01) (54)发明名称 音量控制方法、 装置、 存 储介质和电子设备 (57)摘要 本公开实施例公开了一种音量控制方法、 装 置、 存储介质和电子设备, 其中, 方法包括: 获取 空间区域内的包括空间区域内的人员的图像帧 序列和语音信号; 确定各图像帧中的虚拟麦克风 区域和目标人员的嘴部区域; 确定空间区域内的 目标人员的嘴部区域与虚拟麦克风区域之间的 距离; 确定目标人员的人声音频; 根据 嘴部区域 与虚拟麦克风区域之间的距离, 调整目标人员的 人声音频的播放音量。 由此可知, 本公开实施例 中通过检测目标人员的嘴部区域和虚拟麦克风 区域之间的距离变化, 并根据检测到的距离变化 调整目标人员的人声音 频的播放音量, 实现了人 声播放音量简单、 快捷的调整。 权利要求书2页 说明书13页 附图7页 CN 114911449 A 2022.08.16 CN 114911449 A 1.一种音量控制方法, 包括: 获取空间区域内的包括空间区域内的人员的图像帧序列; 基于所述图像帧序列中的各图像帧, 确定所述各图像帧中的虚拟麦克风 区域和目标人 员; 基于所述各图像帧, 确定所述各图像帧中的目标 人员的嘴部区域; 基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风 区域, 确定目标人员的嘴部 区域与虚拟麦克风区域之间的距离; 获取空间区域内的语音信号, 基于所述语音信号确定所述目标 人员的人声 音频; 根据所述目标人员的嘴部区域与虚拟麦克风 区域之间的距离, 调整所述目标人员的人 声音频的播 放音量。 2.根据权利要求1所述的方法, 其中, 所述基于所述图像帧序列中的各图像帧, 确定所 述各图像帧中的虚拟麦克风区域和目标 人员, 包括: 对所述图像帧序列中的各图像帧进行识别, 确定所述各图像帧中的手持虚拟麦克风的 图像区域; 基于所述各图像帧中的手持虚拟麦克风的图像区域, 确定所述各图像帧中的虚拟麦克 风区域, 将所述各图像帧中持有所述虚拟麦克风的人员确定为所述各图像帧中的目标人 员。 3.根据权利要求1所述的方法, 其中, 基于所述图像帧序列中的各图像帧, 确定所述各 图像帧中的目标 人员的嘴部区域, 包括: 获取所述各图像帧中的目标 人员的嘴部关键点; 根据所述各图像帧中的目标人员的嘴部关键点, 确定所述各图像帧中的目标人员的嘴 部区域。 4.根据权利要求3所述的方法, 其中, 所述基于所述各图像帧中的目标人员的嘴部区域 和虚拟麦克风区域, 确定目标 人员的嘴部区域与虚拟麦克风区域之间的距离, 包括: 确定所述各图像帧中的目标 人员的嘴部区域的第一预设标识点; 确定所述各图像帧中的虚拟麦克风区域的第二预设标识点; 根据所述各图像帧中的所述第 一预设标识点与 所述第二预设标识点, 确定所述目标人 员的嘴部区域与虚拟麦克风区域之间的距离 。 5.根据权利要求4所述的方法, 其中, 所述确定所述各图像帧中的嘴部区域的第 一预设 标识点, 包括: 针对所述各图像帧中的嘴部区域第 一预设标识点, 基于所述目标人员的嘴部区域或嘴 部关键点, 确定所述目标人员的嘴部区域的中心 点为所述目标人员的嘴部区域的第一预设 标识点; 所述确定所述各图像帧中的虚拟麦克风的第二预设标识点, 包括: 针对所述各图像帧中的虚拟麦克风的区域第二预设标识点, 基于所述虚拟麦克风区 域, 确定所述麦克风区域的中心点 为所述虚拟麦克风区域的第二预设标识点。 6.根据权利要求1 ‑5中任一项所述的方法, 其中, 所述基于所述语音信号, 确定所述目 标人员的人声 音频, 包括: 基于所述语音信号进行语音分离, 获取空间区域内的人员的人声音频信息, 所述人员权 利 要 求 书 1/2 页 2 CN 114911449 A 2的人声音频信息包括: 人员的人声 音频和人声 音频对应的音区; 基于所述各图像帧中的目标 人员, 确定所述各图像帧中的目标 人员的位置; 基于所述各图像帧中的目标人员的位置和所述人声音频信 息, 确定所述目标人员的人 声音频。 7.根据权利要求1 ‑5中任一项所述的方法, 其中, 所述根据 所述目标人员的嘴部区域与 虚拟麦克风区域之间的距离, 调整所述目标 人员的人声 音频的播 放音量, 包括: 基于预设的距离与播放音量之间的对应关系, 根据 所述目标人员的嘴部区域与虚拟麦 克风区域之间的距离, 调整所述目标 人员的人声 音频的播 放音量。 8.根据权利要求1 ‑5中任一项所述的方法, 所述目标人员的人声音频的播放音量之后, 还包括: 将所述目标人员的人声音频与伴奏音频混合, 通过空间区域内的音频播放装置以所述 播放音量播放。 9.一种音量控制系统, 包括: 位于空间区域内的语音采集装置, 图像采集装置, 音频播放装置, 控制器, 其中, 所述音 频播放装置用于在控制器控制下播放音频, 所述控制器用于执行权利要求1 ‑8任一项所述 的方法。 10.一种音量控制装置, 包括: 第一获取模块, 用于获取空间区域内的包括空间区域内的人员的图像帧序列; 第一确定模块, 用于基于所述图像帧序列中的各图像帧, 确定所述各图像帧中的虚拟 麦克风区域和目标 人员; 第二确定模块, 用于基于所述各图像帧, 确定所述各图像帧中的目标 人员的嘴部区域; 第三确定模块, 用于基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域, 确定目标 人员的嘴部区域与虚拟麦克风区域之间的距离; 第二获取模块, 用于获取空间区域内的语音信号, 基于所述语音信号确定所述目标人 员的人声 音频; 音量调整模块, 用于根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离, 调 整所述目标 人员的人声 音频的播 放音量。 11.一种计算机可读存储介质, 所述存储介质存储有计算机程序, 所述计算机程序用于 执行上述权利要求1 ‑8任一项所述的方法。 12.一种电子设备, 所述电子设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于从所述存储器中读取所述可执行指令, 并执行所述指令以实现上述 1‑8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114911449 A 3

PDF文档 专利 音量控制方法、装置、存储介质和电子设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音量控制方法、装置、存储介质和电子设备 第 1 页 专利 音量控制方法、装置、存储介质和电子设备 第 2 页 专利 音量控制方法、装置、存储介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。