全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210544943.5 (22)申请日 2022.05.19 (65)同一申请的已公布的文献号 申请公布号 CN 114821271 A (43)申请公布日 2022.07.29 (73)专利权人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 舒畅 陈又新 肖京  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 梁国平 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114358203 A,2022.04.15 CN 108027 738 A,2018.0 5.11 CN 107918782 A,2018.04.17 CN 111598041 A,2020.08.28 CN 111695574 A,2020.09.2 2 CN 114743018 A,202 2.07.12 CN 114387430 A,2022.04.22 CN 113052090 A,2021.0 6.29 吴淙.中文 文本校对关键技 术研究与应用. 《中国优秀硕士学位 论文全文数据库 (信息科技 辑)》 .2020,(第1期),第I138-26 59页. (续) 审查员 周琼 (54)发明名称 模型训练方法、 图像描述生成方法、 装置及 存储介质 (57)摘要 本发明涉及人工智能技术, 提供了一种模 型 训练方法、 图像描述生成方法、 装置及存储介质, 该方法包括: 获取训练图像; 将训练图像输入已 训练的目标检测模型, 输出多个目标对象、 目标 类别标签、 以及置信度; 基于置信度, 对 各个目标 类别标签进行排序, 并根据排序后的目标类别标 签和预设的数量阈值确定关键标签; 根据关键标 签构造有限状态自动机, 并输出关键描述词序 列; 基于集束搜索算法, 根据关键描述词序列确 定伪图像描述; 将训练图像和伪图像描述作为训 练数据, 对图像描述生成模型进行训练。 根据本 发明实施例提供的方案, 通过生成伪图像描述, 避免进行大量的人工标注, 从而降低人工成本,并且避免描述词缺失, 从而提高预测语句的准确 性。 [转续页] 权利要求书3页 说明书14页 附图6页 CN 114821271 B 2022.09.16 CN 114821271 B (56)对比文件 此人姓于名叫 罩百灵.学习Transformer: 自 注意力与多头自注意力的原理及实现. 《https://blog.csdn.net/x uyangcao123 / article/detai ls/124456330》 .2022,第1页. MasterQK K 被注册.点积注意力机制S DPA与 多头注意力机制M HA. 《https://blog.csdn.net/ QKK612501/article/detai ls/119170687》 .2021,第1页. 华南农大-郭庆文.从零 开始快速入门 Transformer 注意力机制. 《ht tps:// blog.csdn.net/u014134327/ar ticle/detai ls/ 121579078?》 .2021,第1页.程晓锦等.有限状态自动机及 在字符串搜索 中的应用. 《北京印刷学院学报》 .2014,第2 2卷 (第4期),第45 -48页. Prashant Giridhar Shambharkar等 .Generati ng Capti on for Ima ge using Beam Search and Analyzati on with Unsupervised Image Capti oning Algorithm. 《2021 5th Internati onal Conference o n Intelligent Computing and Co ntrol System s (ICICCS)》 .2021,第857-864页. 陈又新等.复杂彩色文本图像中字符的提 取. 《中文信息学报》 .20 03,第17卷(第5期),第 55-59页.2/2 页 2[接上页] CN 114821271 B1.一种图像描述 生成模型训练方法, 其特 征在于, 所述方法包括: 获取训练图像; 将所述训练图像输入已训练 的目标检测模型, 以使所述目标检测模型基于所述训练图 像输出多个目标对 象、 各个所述 目标对象对应的目标类别标签、 以及所述 目标类别标签对 应的置信度; 基于所述置信度, 对各个所述目标类别标签进行排序, 并根据所述排序后的目标类别 标签和预设的数量阈值确定关键标签; 根据所述关键标签构造有限状态自动机, 并通过所述有限状态自动机输出与 所述关键 标签对应的关键描述词序列; 基于集束搜索算法, 根据所述关键描述词序列确定伪图像描述; 将所述训练图像和所述伪图像描述作为训练数据, 对所述图像描述生成模型进行训 练, 以更新所述图像描述 生成模型的模型参数; 其中, 所述图像描述生成模型包括编码器和解码器, 所述解码器包括多个叠加的解码 层, 每个所述解码层包括掩码模块和多头注意力模块; 所述将所述训练图像和所述伪图像描述作为训练数据, 对所述图像描述生成模型进行 训练, 以更新所述图像描述 生成模型的模型参数, 包括: 将所述训练图像输入所述编码器, 确定图像编码特 征; 将所述图像编码特征输入所述解码器, 得到预测语句, 其中, 所述预测语句由至少一个 预测词组成; 根据所述预测词和所述伪图像描述确定模型损失值; 基于所述模型损失值, 更新所述图像描述 生成模型的模型参数; 所述将所述图像编码特 征输入所述 解码器, 得到预测语句, 包括: 基于所述掩码模块和多头注意力模块, 在n个时间步上对所述图像编码特征进行处理, 得到所述 n个时间步对应的预测词; 根据所述预测词得到预测语句; 其中, 所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编 码特征、 以及第t ‑1个时间步上的掩码词向量; 所述第t ‑1个时间步上的掩码词向量是对所 述解码器在第t‑1个时间步上的输出结果进 行向量提取, 并输入所述掩码模块而得到; 所述 解码器在第t‑1个时间步上的输出结果用于指示所述第t ‑1个时间步对应的预测词; 所述第 t个时间步是 所述n个时间步中的任意 一个; 1≤t≤n, 且t、 n均为 正整数。 2.根据权利要求1所述的方法, 其特征在于, 所述编码器包括特征提取模块和多个叠加 的编码层, 每 个所述编码层包括多头自注意子层; 所述将所述训练图像输入所述编码器, 确定图像编码特 征, 包括: 将所述训练图像输入已训练的所述特 征提取模块, 得到图像特 征向量; 将所述图像特 征向量输入多头自注意子层, 得到图像自注意特 征向量; 对所述图像自注意特 征向量进行线性变换处 理和正则化处 理, 确定图像编码特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述多头 自注意子层包含H个平行头, 第 个所述编码层的多头自注意子层的输出图像自注意特 征向量为:权 利 要 求 书 1/3 页 2 CN 114821271 B 3

PDF文档 专利 模型训练方法、图像描述生成方法、装置及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、图像描述生成方法、装置及存储介质 第 1 页 专利 模型训练方法、图像描述生成方法、装置及存储介质 第 2 页 专利 模型训练方法、图像描述生成方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。