专利音量控制方法、装置、存储介质和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210368353.1 (22)申请日 2022.04.08 (71)申请人南京地平线机器人技术有限公司地址 210046 江苏省南京市栖霞区经济技术开发区兴智科技园A栋20层 (72)发明人朱长宝　 (74)专利代理机构北京思源智汇知识产权代理有限公司 1 1657 专利代理师李林莎 (51)Int.Cl. G06F 3/16(2006.01) G06V 40/16(2022.01) G06V 10/44(2022.01) (54)发明名称音量控制方法、装置、存储介质和电子设备 (57)摘要本公开实施例公开了一种音量控制方法、装置、存储介质和电子设备，其中，方法包括：获取空间区域内的包括空间区域内的人员的图像帧序列和语音信号；确定各图像帧中的虚拟麦克风区域和目标人员的嘴部区域；确定空间区域内的目标人员的嘴部区域与虚拟麦克风区域之间的距离；确定目标人员的人声音频；根据嘴部区域与虚拟麦克风区域之间的距离，调整目标人员的人声音频的播放音量。由此可知，本公开实施例中通过检测目标人员的嘴部区域和虚拟麦克风区域之间的距离变化，并根据检测到的距离变化调整目标人员的人声音频的播放音量，实现了人声播放音量简单、快捷的调整。权利要求书2页说明书13页附图7页 CN 114911449 A 2022.08.16 CN 114911449 A 1.一种音量控制方法，包括：获取空间区域内的包括空间区域内的人员的图像帧序列；基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离；获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。 2.根据权利要求1所述的方法，其中，所述基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员，包括：对所述图像帧序列中的各图像帧进行识别，确定所述各图像帧中的手持虚拟麦克风的图像区域；基于所述各图像帧中的手持虚拟麦克风的图像区域，确定所述各图像帧中的虚拟麦克风区域，将所述各图像帧中持有所述虚拟麦克风的人员确定为所述各图像帧中的目标人员。 3.根据权利要求1所述的方法，其中，基于所述图像帧序列中的各图像帧，确定所述各图像帧中的目标人员的嘴部区域，包括：获取所述各图像帧中的目标人员的嘴部关键点；根据所述各图像帧中的目标人员的嘴部关键点，确定所述各图像帧中的目标人员的嘴部区域。 4.根据权利要求3所述的方法，其中，所述基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离，包括：确定所述各图像帧中的目标人员的嘴部区域的第一预设标识点；确定所述各图像帧中的虚拟麦克风区域的第二预设标识点；根据所述各图像帧中的所述第一预设标识点与所述第二预设标识点，确定所述目标人员的嘴部区域与虚拟麦克风区域之间的距离。 5.根据权利要求4所述的方法，其中，所述确定所述各图像帧中的嘴部区域的第一预设标识点，包括：针对所述各图像帧中的嘴部区域第一预设标识点，基于所述目标人员的嘴部区域或嘴部关键点，确定所述目标人员的嘴部区域的中心点为所述目标人员的嘴部区域的第一预设标识点；所述确定所述各图像帧中的虚拟麦克风的第二预设标识点，包括：针对所述各图像帧中的虚拟麦克风的区域第二预设标识点，基于所述虚拟麦克风区域，确定所述麦克风区域的中心点为所述虚拟麦克风区域的第二预设标识点。 6.根据权利要求1 ‑5中任一项所述的方法，其中，所述基于所述语音信号，确定所述目标人员的人声音频，包括：基于所述语音信号进行语音分离，获取空间区域内的人员的人声音频信息，所述人员权　利　要　求　书 1/2 页 2 CN 114911449 A 2的人声音频信息包括：人员的人声音频和人声音频对应的音区；基于所述各图像帧中的目标人员，确定所述各图像帧中的目标人员的位置；基于所述各图像帧中的目标人员的位置和所述人声音频信息，确定所述目标人员的人声音频。 7.根据权利要求1 ‑5中任一项所述的方法，其中，所述根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量，包括：基于预设的距离与播放音量之间的对应关系，根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。 8.根据权利要求1 ‑5中任一项所述的方法，所述目标人员的人声音频的播放音量之后，还包括：将所述目标人员的人声音频与伴奏音频混合，通过空间区域内的音频播放装置以所述播放音量播放。 9.一种音量控制系统，包括：位于空间区域内的语音采集装置，图像采集装置，音频播放装置，控制器，其中，所述音频播放装置用于在控制器控制下播放音频，所述控制器用于执行权利要求1 ‑8任一项所述的方法。 10.一种音量控制装置，包括：第一获取模块，用于获取空间区域内的包括空间区域内的人员的图像帧序列；第一确定模块，用于基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；第二确定模块，用于基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；第三确定模块，用于基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离；第二获取模块，用于获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；音量调整模块，用于根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。 11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1 ‑8任一项所述的方法。 12.一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述 1‑8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114911449 A 3

专利 音量控制方法、装置、存储介质和电子设备

专利音量控制方法、装置、存储介质和电子设备