全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210565468.X (22)申请日 2022.05.23 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 常战国 吕一 邓天生 贠挺  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) (54)发明名称 图像分类方法、 图像 分类模型的训练方法及 装置 (57)摘要 本申请公开了图像 分类方法、 图像 分类模型 的训练方法及装置, 涉及计算机技术领域, 尤其 涉及深度学习、 计算机视觉等人工智 能领域。 具 体实现方案为: 获取待分类图片, 并从待分类图 片中提取文本; 获取待分类图片 对应的图像特征 及文本对应的文本特征; 对图像特征与文本特征 进行融合, 以生成融合特征; 根据融合特征, 确定 待分类图片对应的分类结果, 其中, 分类结果用 于指示待分类图片中是否包含目标对象。 该方法 通过将待分类图片的图像特征与待分类图片中 文本的文本特征进行融合, 基于融合特征确定待 分类图片的分类结果, 提高了分类结果的准确 性。 权利要求书4页 说明书14页 附图6页 CN 114863182 A 2022.08.05 CN 114863182 A 1.一种图像分类方法, 包括: 获取待分类图片, 并从所述待分类图片中提取文本; 获取所述待分类图片对应的图像特 征及所述文本对应的文本特 征; 对所述图像特 征与所述文本特 征进行融合, 以生成融合特 征; 根据所述融合特征, 确定所述待分类图片对应的分类结果, 其中, 所述分类结果用于指 示所述待分类图片中是否包 含目标对象。 2.如权利要求1所述的方法, 其中, 所述对所述图像特征与所述文本特征进行融合, 以 生成融合特 征, 包括: 获取所述图像特 征对应的第一权 重矩阵和所述文本特 征对应的第二权 重矩阵; 根据所述第 一权重矩阵和所述第 二权重矩阵, 对所述图像特征和所述文本特征进行融 合, 以生成所述融合特 征。 3.如权利要求2所述的方法, 其中, 所述根据 所述图像特征对应的第 一权重矩阵和所述 文本特征对应的第二权重矩阵, 对所述图像特征和所述文本特征进行融合, 生成所述融合 特征, 包括: 将所述第一权 重矩阵与所述图像特 征相乘, 以生成第一特 征矩阵; 将所述第二权 重矩阵与所述文本特 征相乘, 以生成第二特 征矩阵; 将所述第一特 征矩阵与所述第二特 征矩阵进行拼接, 以生成所述融合特 征。 4.如权利要求1所述的方法, 其中, 所述获取所述待分类图片对应的图像特征及所述文 本对应的文本特 征, 包括: 获取所述文本之中的字符数量; 在所述文本之中的字符数量大于预设数量的情况下, 对所述待分类图片和所述文本分 别进行编码, 以获取 所述待分类图片对应的图像特 征及所述文本对应的文本特 征; 在所述文本之中的字符数量小于或等于预设数量的情况下, 对所述待分类图片进行编 码, 以获取所述待分类图片对应的图像特征, 并获取预设特征作为所述文本对应的文本特 征。 5.如权利要求4所述的方法, 其中, 所述对所述待分类图片和所述文本分别进行编码, 以获取所述待分类图片对应的图像特 征及所述文本对应的文本特 征, 包括: 将所述待分类图片和所述文本输入图像分类模型, 由所述图像分类模型中的图像编码 层对所述待分类图片进行编码, 以获取 所述图像特 征; 由所述图像分类模型中的文本编码层对所述文本进行编码, 以获取 所述文本特 征。 6.如权利要求5所述的方法, 其中, 所述根据所述融合特征, 确定所述待分类图片对应 的分类结果, 包括: 通过所述图像分类模型中的解码层对所述融合特征进行解码, 以确定所述待分类图片 对应的分类结果。 7.如权利要求1所述的方法, 其中, 所述从所述待分类图片中提取文本, 包括: 对所述待分类图片进行文本识别, 以获取 所述待分类图片中的字符; 将所述字符拼接成行, 以得到所述文本 。 8.一种图像分类模型的训练方法, 包括: 获取样本图片, 并从所述样本图片中提取样本文本;权 利 要 求 书 1/4 页 2 CN 114863182 A 2获取所述样本图片对应的图像特 征及所述样本文本对应的文本特 征; 采用初始图像分类模型对所述图像特征与所述文本特征进行融合, 以生成融合特征, 并根据所述融合特征, 确定所述样 本图片对应的预测结果, 其中, 所述预测结果用于指示所 述样本图片中是否包 含目标对象; 根据所述预测结果和所述样本图片的第 一标注类别, 对所述初始图像分类模型进行训 练, 以得到图像分类模型。 9.如权利要求8所述的方法, 其中, 所述融合特征包括第一融合特征和第二融合特征, 所述对所述图像特 征与所述文本特 征进行融合, 以生成融合特 征, 包括: 获取所述图像特 征对应的第一权 重矩阵和所述文本特 征对应的第二权 重矩阵; 根据所述第 一权重矩阵和所述第 二权重矩阵, 对所述图像特征和所述文本特征进行融 合, 以生成所述第一融合特 征; 将所述图像特 征与所述文本特 征进行拼接, 以生成所述第二融合特 征。 10.如权利要求9所述的方法, 其中, 所述根据 所述融合特征, 确定所述样本图片对应的 预测结果, 包括: 对所述第一融合特征和所述第 二融合特征分别解码, 以获取所述第 一融合特征对应的 第一预测结果和所述第二融合特 征对应的第二预测结果。 11.如权利要求10所述的方法, 其中, 所述根据所述预测结果和所述样本图片的第 一标 注类别, 对所述初始图像分类模型进行训练, 以得到图像分类模型, 包括: 根据所述第一预测结果与所述第一标注类别之间的差异, 确定第一损失值; 根据所述第二预测结果、 所述第一标注类别及所述样本文本对应的第二标注类别, 确 定第二损失值; 根据所述第一损 失值与所述第二损 失值之和, 对所述初始图像分类模型进行训练, 以 得到所述图像分类模型。 12.如权利要求11所述的方法, 其中, 所述根据所述第二预测结果、 所述第一标注类别 及所述样本文本对应的第二标注类别, 确定第二损失值, 包括: 根据所述第二预测结果中所述样本图片的预测类别、 与所述第一标注类别之间的差 异, 确定第一焦点损失值; 根据所述第二预测结果中所述样本文本的预测类别、 与所述第二标注类别之间的差 异, 确定第二焦点损失值; 根据所述第一焦点损失值和所述第二焦点损失值之和, 确定所述第二损失值。 13.一种图像分类装置, 包括: 第一获取模块, 用于获取待分类图片, 并从所述待分类图片中提取文本; 第二获取模块, 用于获取所述待分类图片对应的图像特征及所述文本对应的文本特 征; 融合模块, 用于对所述图像特 征与所述文本特 征进行融合, 以生成融合特 征; 确定模块, 用于根据所述融合特征, 确定所述待分类图片对应的分类结果, 其中, 所述 分类结果用于指示待分类图片中是否包 含目标对象。 14.如权利要求13装置, 其中, 所述融合模块, 用于: 获取所述图像特 征对应的第一权 重矩阵和所述文本特 征对应的第二权 重矩阵;权 利 要 求 书 2/4 页 3 CN 114863182 A 3

PDF文档 专利 图像分类方法、图像分类模型的训练方法及装置

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像分类方法、图像分类模型的训练方法及装置 第 1 页 专利 图像分类方法、图像分类模型的训练方法及装置 第 2 页 专利 图像分类方法、图像分类模型的训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。