(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210544943.5
(22)申请日 2022.05.19
(65)同一申请的已公布的文献号
申请公布号 CN 114821271 A
(43)申请公布日 2022.07.29
(73)专利权人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 舒畅 陈又新 肖京
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 梁国平
(51)Int.Cl.
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 114358203 A,2022.04.15
CN 108027 738 A,2018.0 5.11
CN 107918782 A,2018.04.17
CN 111598041 A,2020.08.28
CN 111695574 A,2020.09.2 2
CN 114743018 A,202 2.07.12
CN 114387430 A,2022.04.22
CN 113052090 A,2021.0 6.29
吴淙.中文 文本校对关键技 术研究与应用.
《中国优秀硕士学位 论文全文数据库 (信息科技
辑)》 .2020,(第1期),第I138-26 59页. (续)
审查员 周琼
(54)发明名称
模型训练方法、 图像描述生成方法、 装置及
存储介质
(57)摘要
本发明涉及人工智能技术, 提供了一种模 型
训练方法、 图像描述生成方法、 装置及存储介质,
该方法包括: 获取训练图像; 将训练图像输入已
训练的目标检测模型, 输出多个目标对象、 目标
类别标签、 以及置信度; 基于置信度, 对 各个目标
类别标签进行排序, 并根据排序后的目标类别标
签和预设的数量阈值确定关键标签; 根据关键标
签构造有限状态自动机, 并输出关键描述词序
列; 基于集束搜索算法, 根据关键描述词序列确
定伪图像描述; 将训练图像和伪图像描述作为训
练数据, 对图像描述生成模型进行训练。 根据本
发明实施例提供的方案, 通过生成伪图像描述,
避免进行大量的人工标注, 从而降低人工成本,并且避免描述词缺失, 从而提高预测语句的准确
性。
[转续页]
权利要求书3页 说明书14页 附图6页
CN 114821271 B
2022.09.16
CN 114821271 B
(56)对比文件
此人姓于名叫 罩百灵.学习Transformer: 自
注意力与多头自注意力的原理及实现.
《https://blog.csdn.net/x uyangcao123 /
article/detai ls/124456330》 .2022,第1页.
MasterQK K 被注册.点积注意力机制S DPA与
多头注意力机制M HA. 《https://blog.csdn.net/
QKK612501/article/detai ls/119170687》
.2021,第1页.
华南农大-郭庆文.从零 开始快速入门
Transformer 注意力机制. 《ht tps://
blog.csdn.net/u014134327/ar ticle/detai ls/
121579078?》 .2021,第1页.程晓锦等.有限状态自动机及 在字符串搜索
中的应用. 《北京印刷学院学报》 .2014,第2 2卷
(第4期),第45 -48页.
Prashant Giridhar Shambharkar等
.Generati ng Capti on for Ima ge using Beam
Search and Analyzati on with Unsupervised
Image Capti oning Algorithm. 《2021 5th
Internati onal Conference o n Intelligent
Computing and Co ntrol System s (ICICCS)》
.2021,第857-864页.
陈又新等.复杂彩色文本图像中字符的提
取. 《中文信息学报》 .20 03,第17卷(第5期),第
55-59页.2/2 页
2[接上页]
CN 114821271 B1.一种图像描述 生成模型训练方法, 其特 征在于, 所述方法包括:
获取训练图像;
将所述训练图像输入已训练 的目标检测模型, 以使所述目标检测模型基于所述训练图
像输出多个目标对 象、 各个所述 目标对象对应的目标类别标签、 以及所述 目标类别标签对
应的置信度;
基于所述置信度, 对各个所述目标类别标签进行排序, 并根据所述排序后的目标类别
标签和预设的数量阈值确定关键标签;
根据所述关键标签构造有限状态自动机, 并通过所述有限状态自动机输出与 所述关键
标签对应的关键描述词序列;
基于集束搜索算法, 根据所述关键描述词序列确定伪图像描述;
将所述训练图像和所述伪图像描述作为训练数据, 对所述图像描述生成模型进行训
练, 以更新所述图像描述 生成模型的模型参数;
其中, 所述图像描述生成模型包括编码器和解码器, 所述解码器包括多个叠加的解码
层, 每个所述解码层包括掩码模块和多头注意力模块;
所述将所述训练图像和所述伪图像描述作为训练数据, 对所述图像描述生成模型进行
训练, 以更新所述图像描述 生成模型的模型参数, 包括:
将所述训练图像输入所述编码器, 确定图像编码特 征;
将所述图像编码特征输入所述解码器, 得到预测语句, 其中, 所述预测语句由至少一个
预测词组成;
根据所述预测词和所述伪图像描述确定模型损失值;
基于所述模型损失值, 更新所述图像描述 生成模型的模型参数;
所述将所述图像编码特 征输入所述 解码器, 得到预测语句, 包括:
基于所述掩码模块和多头注意力模块, 在n个时间步上对所述图像编码特征进行处理,
得到所述 n个时间步对应的预测词;
根据所述预测词得到预测语句;
其中, 所述多头注意力模块在第t个时间步上的输入包括所述第t个时间步上的图像编
码特征、 以及第t ‑1个时间步上的掩码词向量; 所述第t ‑1个时间步上的掩码词向量是对所
述解码器在第t‑1个时间步上的输出结果进 行向量提取, 并输入所述掩码模块而得到; 所述
解码器在第t‑1个时间步上的输出结果用于指示所述第t ‑1个时间步对应的预测词; 所述第
t个时间步是 所述n个时间步中的任意 一个; 1≤t≤n, 且t、 n均为 正整数。
2.根据权利要求1所述的方法, 其特征在于, 所述编码器包括特征提取模块和多个叠加
的编码层, 每 个所述编码层包括多头自注意子层;
所述将所述训练图像输入所述编码器, 确定图像编码特 征, 包括:
将所述训练图像输入已训练的所述特 征提取模块, 得到图像特 征向量;
将所述图像特 征向量输入多头自注意子层, 得到图像自注意特 征向量;
对所述图像自注意特 征向量进行线性变换处 理和正则化处 理, 确定图像编码特 征。
3.根据权利要求2所述的方法, 其特征在于, 所述多头 自注意子层包含H个平行头, 第
个所述编码层的多头自注意子层的输出图像自注意特 征向量为:权 利 要 求 书 1/3 页
2
CN 114821271 B
3
专利 模型训练方法、图像描述生成方法、装置及存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:10:32上传分享