全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210106703.7 (22)申请日 2022.01.28 (71)申请人 广州方硅信息技 术有限公司 地址 511442 广东省广州市番禺区南村镇 万博二路79号3108 (72)发明人 曾家乐  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 代理人 王增鑫 (51)Int.Cl. H04N 21/2187(2011.01) H04N 21/234(2011.01) H04N 21/431(2011.01) H04N 21/44(2011.01) H04N 21/442(2011.01)H04N 21/4788(2011.01) G10L 15/14(2006.01) G10L 15/16(2006.01) G10L 15/22(2006.01) G10L 15/26(2006.01) G06V 20/40(2022.01) G06F 9/451(2018.01) G06V 10/56(2022.01) G06V 10/44(2022.01) (54)发明名称 直播流对象跟踪方法及其装置、 设备、 介质 (57)摘要 本申请涉及网络直播技术领域, 公开一种直 播流对象跟踪方法及其装置、 设备、 介质, 包括: 向直播间推送 直播流, 该直播流包含视频流和音 频流, 所述音频流包含音 频输入设备输入的音 频 数据; 对所述音频数据进行语音识别, 获得相对 应的口述文本, 确定该口述文本所指向的目标对 象; 从所述图像流中识别出所述目标对象, 获取 该目标对象在该视频流的视频帧中的边缘轮廓 信息; 将所述边缘轮廓信息作为定位跟踪信息, 推送至所述直播间, 使接收该定位跟踪信息的终 端设备在所述视频流的播放界面中突出显示所 述目标对象的轮廓。 本申请提升图形用户界面中 直播内容的可读性, 从而改善用户体验。 权利要求书2页 说明书16页 附图7页 CN 114401417 A 2022.04.26 CN 114401417 A 1.一种直 播流对象跟踪方法, 其特 征在于, 包括如下步骤: 向直播间推送直播流, 该直播流包含视频流和音频流, 所述音频流包含音频输入设备 输入的音频 数据, 所述视频流包 含第三方程序的显示界面相对应的图像流; 对所述音频数据进行语音识别, 获得相对应的口述文本, 确定该口述文本所指向的目 标对象; 从所述图像流中识别出所述目标对象, 获取该目标对象在该视频流的视频帧中的边缘 轮廓信息; 将所述边缘轮廓信息作为定位跟踪信息, 推送至所述直播间, 使接收该定位跟踪信息 的终端设备在所述视频流的播 放界面中突出显示所述目标对象的轮廓。 2.根据权利要求1所述的直播流对象跟踪方法, 其特征在于, 向直播间推送直播流, 包 括如下步骤: 从显存中获取第三方程序的显示界面相对应的图像流; 接收与主播 客户端设备 连接的摄 像设备摄取的视频 数据; 接收与主播 客户端设备 连接的音频输入设备输入的音频 数据; 将所述图像流、 视频数据合成视频流, 再将其和音频数据合成所述直播流, 将其推送至 直播间播放。 3.根据权利要求1所述的直播流对象跟踪方法, 其特征在于, 对所述音频数据进行语音 识别, 获得相对应的 口述文本, 确定该口述文本所指向的目标对象, 包括如下步骤: 提取所述音频 数据的深层声学 特征, 构建相对应的声学 特征向量; 根据所述声学特征向量调用第 一神经网络模型获得对应的音素序列, 解码该音素序列 获得所述口述文本; 根据预设的信 息列表中的对象文本信 息匹配所述口述文本, 获得与 该口述文本相匹配 对象文本信息, 以其确认所述目标对象。 4.根据权利要求3所述的直播流对象跟踪方法, 其特征在于, 根据 预设的信 息列表中的 对象文本信息匹配所述口述文本, 获得与该 口述文本相匹配对 象文本信息, 以其确认所述 目标对象之前, 包括如下步骤: 获取用于竞 技项目描述相对应的词条, 所述 竞技项目包括游戏项目或体育竞 赛项目; 筛选出参与 所述竞技项目的目标对象的角色名称、 角色技 能名称相对应的对象文本信 息; 将所述对象文本信息关联相应的目标对象存 储于所述信息列表中。 5.根据权利要求1所述的直播流对象跟踪方法, 其特征在于, 从所述图像流中识别出所 述目标对象, 获取 该目标对象在该视频流的视频帧中的边 缘轮廓信息, 包括如下步骤: 提取所述视频流中各个视频帧的深层图片特 征, 构建相对应的图片特 征向量; 根据所述图片特征向量调用第二神经网络模型识别出在该视频流的视频帧中的所述 目标对象, 获得 所述目标对象在该视频流的视频帧中的实时位置; 调用第三神经网络模型分割出所述目标对象对应的图片特征向量, 对其进行边缘补偿 计算, 获得该目标对 象的边缘轮廓信息, 所述边缘轮廓信息包括所述 目标对象对应的边缘 轮廓及其对应的实时位置 。 6.根据权利要求1所述的直播流对象跟踪方法, 其特征在于, 将所述边缘轮廓信 息作为权 利 要 求 书 1/2 页 2 CN 114401417 A 2定位跟踪信息, 推送至所述直播间, 使接 收该定位跟踪信息的终端设备在所述视频流的播 放界面中突出显示所述目标对象的轮廓, 包括如下步骤: 将目标对象对应的所述边缘轮廓信息关联获得其时对应所述视频流中的视频帧的时 间戳构成定位跟踪信息, 将其上传至服务器推送至所述直播间, 以由服务器下发该定位跟 踪信息至连接该直 播间的终端设备; 检测终端设备显示跟踪对象开关启动状态, 若检测该状态为开启, 根据该定位跟踪信 息为所述目标对象渲 染边缘轮廓颜色, 使得在所述视频流的播放界面中突出显示该目标对 象的轮廓。 7.根据权利要求6所述的直播流对象跟踪方法, 其特征在于, 根据 该定位跟踪信 息为所 述目标对象渲染边缘轮廓颜色, 使得在所述视频流的播放界面中突出显示该目标对象的轮 廓, 包括如下步骤: 根据所述定位跟踪信息中的边缘轮廓信息中的实时位置在所述视频流的视频帧中定 位出该边缘轮廓信息中的边 缘轮廓, 提取 出该视频帧中所述 边缘轮廓的周边颜色; 根据所述边缘轮廓的周边颜色中占比最高的颜色值, 确认其对应的色域, 获取区别于 该色域的颜色值设为所述目标对象的边 缘轮廓颜色; 采用所述目标对象的边缘轮廓颜色对所述视频帧边缘轮廓进行渲染, 以在所述视频流 的播放界面中显示出 所述目标对象的边 缘轮廓。 8.一种直 播流对象跟踪装置, 其特 征在于, 包括: 直播流推送模块, 用于向直播间推送直播流, 该直播流包含视频流和音频流, 所述音频 流包含音频输入设备输入的音频数据, 所述视频流包含第三方程序的显示界面相对应的图 像流; 语音翻译模块, 用于对所述音频数据进行语音识别, 获得相对应的口述文本, 确定该口 述文本所指向的目标对象; 图像识别模块, 用于从所述图像流中识别出所述目标对象, 获取该目标对象在该视频 流的视频帧中的边 缘轮廓信息; 轮廓显示模块, 用于将所述边缘轮廓信 息作为定位跟踪信 息, 推送至所述直播间, 使接 收该定位跟踪信息的终端设备在所述视频流的播 放界面中突出显示所述目标对象的轮廓。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 10.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。权 利 要 求 书 2/2 页 3 CN 114401417 A 3

PDF文档 专利 直播流对象跟踪方法及其装置、设备、介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 直播流对象跟踪方法及其装置、设备、介质 第 1 页 专利 直播流对象跟踪方法及其装置、设备、介质 第 2 页 专利 直播流对象跟踪方法及其装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。