全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210768182.1 (22)申请日 2022.06.30 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 张婉平  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) (54)发明名称 多模态图像识别方法和装置、 模型训练方法 和装置 (57)摘要 本公开提供了一种多模态图像识别模型训 练方法和装置, 涉及人工智能技术领域, 具体为 深度学习、 图像处理、 计算机视觉技术领域, 可应 用于人脸识别等场景。 具体实现方案为: 从预先 构建的多目标多模态 图像样本集中选取至少两 种模态的目标图像样本, 目标图像样本中均具有 同一目标; 将目标图像样本中任意一种模态图像 样本输入目标网络进行特征提取, 得到目标特 征; 将目标图像样本输入在线网络进行特征提 取, 得到第一在线特征; 将第一在线特征分别输 入对应的特征 队列, 得到一一对应的特征序列; 基于目标特征、 所述特征序列, 训练对应在线网 络的多模态图像识别模型。 该实施方式提高了多 模态图像识别的准确性。 权利要求书3页 说明书14页 附图4页 CN 115147679 A 2022.10.04 CN 115147679 A 1.一种多模态图像识别模型训练方法, 所述方法包括: 从预先构建的多目标多模态图像样本集中选取至少两种 模态的目标图像样本, 所述目 标图像样本中均具有同一目标; 将所述目标图像样本中任意一种模态图像样本输入目标网络进行特征提取, 得到目标 特征; 将所述目标图像样本输入在线网络进行特征提取, 得到第一在线特征, 所述在线网络 与所述目标网络具有相同的网络结构; 将所述第一在线特 征分别输入 对应的特 征队列, 得到一 一对应的特 征序列; 基于所述目标 特征、 所述特 征序列, 训练对应所述在线网络的多模态图像识别模型。 2.根据权利要求1所述的方法, 其中, 所述基于所述目标特征、 所述特征序列, 训练对应 所述在线网络的多模态图像识别模型, 包括: 基于所述目标特征、 所述特征序列, 更新所述目标网络的第一参数和所述在线网络的 第二参数; 响应于确定所述目标网络满足训练完成条件, 得到对应所述在线 网络的多模态图像识 别模型, 所述目标网络是基于所述第一 参数训练的。 3.根据权利要求2所述的方法, 其中, 所述基于所述目标特征、 所述特征序列, 更新所述 目标网络的第一 参数和所述在线网络的第二 参数, 包括: 基于所述目标 特征和所述特 征序列, 计算各个模态的损失值; 基于所述损失值计算总损失值; 基于所述总损失值, 更新所述第一 参数和所述第二 参数。 4.根据权利要求3所述的方法, 其中, 所述基于所述总损 失值, 更新所述第一参数和所 述第二参数, 包括: 基于所述总损失值, 采用随机梯度下降法更新所述第一 参数; 通过所述随机梯度下降法访问的所述第 一参数, 并采用指数滑动平均算法更新所述第 二参数。 5.根据权利要求3所述的方法, 其中, 所述基于所述目标特征和所述特征序列, 计算各 个模态的损失值, 包括: 根据分类损 失函数和所述目标特征、 所述特征序列中的第二在线特征, 计算所述损 失 值, 所述第二在线特 征至少包括所述第一在线特 征。 6.根据权利要求5所述的方法, 其中, 所述第二在特征还包括: 所述特征队列中的历史 在线特征, 所述历史在线特 征为所述在线网络在历史时刻输入所述特 征队列的在线特 征。 7.根据权利要求1 ‑6之一所述的方法, 其中, 所述特 征队列为先进先 出队列; 所述将所述第一在线特 征分别输入 对应的特 征队列, 得到一 一对应的特 征序列, 包括: 将所述第一在线特 征分别更新至所述第一在线特 征对应的先进先 出队列的队尾; 响应于确定所述先进先 出队列已满, 弹出 所述先进先 出队列的队首的历史在线特 征。 8.根据权利要求1所述的方法, 其中, 所述至少两种模态包括: 色彩模式模态和近红外 模态。 9.一种多模态图像识别方法, 所述方法包括: 获取具有至少两种模态的图像;权 利 要 求 书 1/3 页 2 CN 115147679 A 2将所述图像输入采用权利要求1 ‑8中任一项所述的多模态图像识别模型训练方法得到 的多模态图像识别模型中, 得到所述图像的特 征; 基于所述图像的特 征, 得到所述图像中目标的识别结果。 10.根据权利要求9所述的方法, 其中, 所述基于所述图像的特征, 得到所述图像中目标 的识别结果, 包括: 一一计算所述图像的特征与 数据库中的至少两个底库 特征的相似度; 选取相似度最高 的底库特 征对应的目标, 并将该目标的身份信息作为所述图像中目标的识别结果。 11.根据权利要求9所述的方法, 其中, 所述图像包括: 色彩模式图像和近红外 图像, 所 述识别结果包括: 所述色彩模式图像中目标的特 征和所述近红外图像中目标的特 征。 12.根据权利要求9所述的方法, 其中, 所述目标为人脸, 所述识别结果包括: 所述图像 中不同人物的人脸特 征。 13.一种多模态图像识别模型训练装置, 所述装置包括: 样本选取单元, 被配置成从预先构建的多目标多模态图像样本集中选取至少两种模态 的目标图像样本, 所述目标图像样本中均具有同一目标; 目标得到单元, 被配置成将所述目标图像样本 中任意一种 模态图像样本输入目标网络 进行特征提取, 得到所述目标图像样本的目标 特征; 在线得到单元, 被配置成将所述目标图像样本输入在线网络进行特征提取, 得到所述 目标图像样本的第一在线特 征, 所述在线网络与所述目标网络具有相同的网络结构; 序列得到单元, 被配置成将所述第一在线特征分别输入对应的特征队列, 得到一一对 应的特征序列; 训练单元, 被配置成基于所述目标特征、 所述特征序列, 训练对应所述在线网络的多模 态图像识别模型。 14.根据权利要求13所述的装置, 其中, 所述训练单 元包括: 更新子单元, 被配置成基于所述目标特征、 所述特征序列, 更新所述目标网络的第一参 数和所述在线网络的第二 参数; 得到子单元, 被配置成响应于确定所述目标网络满足训练完成条件, 得到对应所述在 线网络的多模态图像识别模型, 所述目标网络是基于所述第一 参数训练的。 15.根据权利要求14所述的装置, 其中, 所述更新子单 元包括: 模态计算模块, 被 配置成基于所述目标 特征和所述特 征序列, 计算各个模态的损失值; 损失计算模块, 被 配置成基于所述损失值计算总损失值; 更新模块, 被 配置成基于所述总损失值, 更新所述第一 参数和所述第二 参数。 16.根据权利要求15所述的装置, 其中, 所述更新模块进一步被配置成: 基于所述总损 失值, 采用随机梯度下降法更新所述第一参数; 通过所述 随机梯度下降法访问的所述第一 参数, 并采用指数滑动平均算法更新所述第二 参数。 17.根据权利要求15所述的装置, 其中, 所述模态计算模块进一步被配置成: 根据分类 损失函数和所述目标特征、 所述特征序列中的第二在线 特征, 计算所述损失值, 所述第二在 线特征至少包括所述第一在线特 征。 18.根据权利要求17所述的装置, 其中, 所述第二在特征还包括: 所述特征队列中的历 史在线特征, 所述历史在线特征为所述在线网络在历史时刻输入所述特征队列 的在线特权 利 要 求 书 2/3 页 3 CN 115147679 A 3

PDF文档 专利 多模态图像识别方法和装置、模型训练方法和装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多模态图像识别方法和装置、模型训练方法和装置 第 1 页 专利 多模态图像识别方法和装置、模型训练方法和装置 第 2 页 专利 多模态图像识别方法和装置、模型训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。