全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211144601.0 (22)申请日 2022.09.20 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 孙佳 袁泽寰  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 贾小慧 (51)Int.Cl. G06V 20/00(2022.01) G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) (54)发明名称 一种场景标签识别方法、 装置、 设备及存储 介质 (57)摘要 本申请公开了应用于数据处理技术领域的 一种场景标签识别方法、 装置、 设备及存储介质。 该方法通过 获取待识别场景数据, 提取待识别场 景数据的第一特征, 分别计算第一特征与特征库 包括的属于第一数量的场景维度的各个待匹配 特征的相似度, 根据计算得到的相似度, 从多个 待匹配特征中确定第二数量的第二特征, 并将第 二特征的预设标签确定为待识别场景数据的场 景标签。 在另 一种实现方式中, 该方法通过获取 待识别场景数据, 将待识别场景数据输入分类模 型, 得到分类模型输出的分类结果, 基于分类结 果能够确定待识别场景数据的场景标签。 利用特 征库或者利用多标签的训练数据训练得到的分 类模型, 能够确定待识别场景数据的较多维度 的, 更为丰富的场景标签 。 权利要求书3页 说明书20页 附图4页 CN 115512212 A 2022.12.23 CN 115512212 A 1.一种场景 标签识别方法, 其特 征在于, 所述方法包括: 获取待识别场景数据, 所述待识别场景数据包括文本数据、 图像数据和视频数据中的 一种或者多种; 提取所述待识别场景 数据的第一特 征; 分别计算所述第一特征与 特征库包括的各个待匹配特征的相似度, 所述特征库包括分 别属于第一数量的场景维度的多个待匹配特 征以及各个待匹配特 征的预设标签; 根据所述相似度, 确定第 二数量的第 二特征, 所述第 二数量小于或者等于第 一数量, 所 述第二数量的第二特 征分别属于不同的场景维度; 将所述第二特 征的预设标签确定为所述待识别场景 数据的场景 标签。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述相似度, 确定第二数量的第 二特征, 包括: 分别将属于每个场景维度的待 匹配特征中, 相似度 大于阈值的待 匹配特征作为第 二特 征。 3.根据权利要求1所述的方法, 其特征在于, 所述待识别场景数据包括视频数据, 在所 述提取所述待识别场景 数据的第一特 征之前, 所述方法还 包括: 按照第一抽帧频率, 从所述视频 数据提取图像帧, 得到图像数据; 所述提取所述待识别场景 数据的第一特 征, 包括: 提取所述图像数据的第一特 征。 4.根据权利要求1所述的方法, 其特征在于, 所述第一数量为三个, 所述第一数量的场 景维度包括实体维度、 动作维度以及氛围维度。 5.一种场景 标签识别方法, 其特 征在于, 所述方法包括: 获取待识别场景数据, 所述待识别场景数据包括文本数据、 图像数据和视频数据中的 一种或者多种; 将所述待识别场景数据输入分类模型, 得到所述分类模型输出的分类结果, 所述分类 结果包括多个 类别, 所述分类模型 是利用多标签的训练数据训练得到的; 基于所述分类结果确定所述待识别场景 数据的场景 标签。 6.根据权利要求5所述的方法, 其特征在于, 所述待识别场景数据包括视频数据, 所述 将所述待识别场景 数据输入分类模型, 得到所述分类模型输出的分类结果, 包括: 按照第二抽帧频率对所述视频 数据进行抽帧处 理, 得到多个待识别图像数据; 将多个所述待识别图像数据输入图像分类模型中, 得到所述图像分类模型输出的各个 所述待识别图像数据的图像分类结果。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述分类结果确定所述待识别场 景数据的场景 标签, 包括: 若所述待识别图像数据的图像分类结果包括多种图像分类结果, 根据 所述第二抽帧频 率以及所述各个所述待识别图像数据的图像分类结果, 将所述视频数据划分为至少两个视 频子数据, 每 个所述视频子数据包括的待识别图像数据的图像分类结果 不同; 根据所述视频子数据包括的待识别图像数据的图像分类结果, 确定视频子数据的场景 标签。 8.根据权利要求5所述的方法, 其特征在于, 所述待识别场景数据包括图像数据, 所述权 利 要 求 书 1/3 页 2 CN 115512212 A 2分类模型为图像分类模型。 9.根据权利要求6和8所述的方法, 其特征在于, 所述分类模型为图像分类模型, 所述图 像分类模型 是采用以下 方式训练得到的: 获取第一训练数据, 所述第 一训练数据包括训练图像数据和所述训练图像数据的多个 第一场景 标签; 将所述训练图像数据输入待训练图像分类模型中, 得到所述待训练图像分类模型输出 的第一预测分类结果, 所述第一预测分类结果包括多个第一分类 类别; 利用所述第 一预测分类结果和多个所述第 一场景标签, 采用损失函数调整所述待训练 图像分类模型, 得到所述图像分类模型。 10.根据权利要求9所述的方法, 其特征在于, 所述利用所述第一预测分类结果和多个 所述第一场景 标签, 采用损失函数调整所述待训练图像分类模型, 包括: 从所述第一预测分类结果包括的多个第一分类 类别中选取目标类型; 利用所述目标类型和所述第一场景标签, 采用损失函数调整所述待训练图像分类模 型。 11.根据权利要求10所述的方法, 其特 征在于, 所述损失函数为多分类交叉熵函数。 12.根据权利要求5所述的方法, 其特征在于, 所述测试场景数据包括视频数据, 所述分 类模型为第一视频分类模型, 所述第一视频分类模型 是采用以下 方式训练得到的: 获取第二训练数据, 所述第 二训练数据包括第 一训练视频数据和所述第 一训练视频数 据的多个第二场景 标签; 将所述第一训练视频数据输入第 一待训练视频分类模型中, 得到所述第 一待训练视频 分类模型输出的第二预测分类结果, 所述第二预测分类结果包括多个第二分类 类别; 利用所述第 二预测分类结果和所述第 二场景标签, 采用损失函数调 整所述第 一待训练 视频分类模型, 得到所述第一视频分类模型。 13.根据权利要求5所述的方法, 其特征在于, 所述测试场景数据包括视频数据和文本 数据, 所述文本数据与所述视频数据相关, 所述分类模型为第二视频分类模型, 所述第二视 频分类模型 是采用以下 方式训练得到的: 获取第三训练数据, 所述第三训练数据包括第二训练视频数据、 训练文本数据和所述 第二训练视频 数据的多个第二标签, 所述训练文本数据与所述第二训练视频 数据相关; 将所述第二训练视频数据以及训练文本数据输入第 二待训练视频分类模型中, 得到所 述第二待训练视频分类模型输出的第三预测分类结果, 所述第三预测分类结果包括多个第 三分类类别; 利用所述第 三预测分类结果和所述标签, 采用损失函数调整所述第 二待训练视频分类 模型, 得到所述第二视频分类模型。 14.根据权利要求5所述的方法, 其特征在于, 所述多标签的训练数据是采用以下方式 得到的: 获取采集数据; 将所述采集数据输入伪标签标注模型中, 得到所述伪标签标注模型输出的采集数据的 预测标签; 获取所述采集数据的标准标签;权 利 要 求 书 2/3 页 3 CN 115512212 A 3

PDF文档 专利 一种场景标签识别方法、装置、设备及存储介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种场景标签识别方法、装置、设备及存储介质 第 1 页 专利 一种场景标签识别方法、装置、设备及存储介质 第 2 页 专利 一种场景标签识别方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。