全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210532609.8 (22)申请日 2022.05.13 (71)申请人 上海大学 地址 200436 上海市宝山区上 大路99号 (72)发明人 武星  (74)专利代理 机构 上海申汇 专利代理有限公司 31001 专利代理师 翁若莹 徐颖 (51)Int.Cl. G06V 20/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/75(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) (54)发明名称 自监督对比学习自然场景中文本识别系统 训练方法 (57)摘要 本发明涉及一种自监督对比学习 自然场景 中文本识别系统训练方法, 将图像正负样本中的 文本标签作为文本标签正负样 本, 送入文本编码 器中进行对比学习, 作为图像编码器的辅助训练 学习, 再采用图像正负样本中提取的图像特征和 文本标签正负样本中提取的文本特征组成特征 对, 分别计算图像 ‑文本损失和文本 ‑图像损失, 将正样本图像‑文本对的两个损失的加权组合最 小为目标对系统进行训练, 最终获得图像编码器 中参数化的图像编码器函数。 采用自然图像文本 与文本的正负样本集同时进行识别训练, 获得具 有对自然场景中文本对比学习能力的识别模型, 训练后模型可对自然场景中文本进行检测识别, 大大降低对 有标注数据集的依赖程度。 权利要求书2页 说明书6页 附图2页 CN 114973226 A 2022.08.30 CN 114973226 A 1.一种自监督对比学习自然场景中文本识别系统训练方法, 其特征在于, 具体包括如 下步骤: 1)图像正负样本: 采用公开图像数据集, 选取一张自然场景文本图像进行经过图像增 强处理后, 获得同类多个样本作为图像正样本, 其他自然场景文本图像经过图像增强处理 扩充样本后作为图像负 样本; 2)文本标签正负样本: 步骤1)图像正样本对应的文本标签进行文本增 强处理后, 获得 同类多个样本作为文本标签正样本, 步骤1)中图像负样 本对应的文本标签进 行文本增强处 理扩充样本后作为文本负 样本; 3)步骤1)获得的图像正负样本送入图像编码器进行特征向量提取, 步骤2)获得的文本 标签正负 样本送入文本编码器进行 特征向量提取; 4)步骤3)图像编码器输出的特征向量与文本编码器输出的特征向量作为向量对进行 相似度计算, 分别获得图像 ‑文本损失和文本 ‑图像损失, 将正样本图像 ‑文本对的两个损失 的加权组合最小为目标对系统进行训练, 最终获得图像编码器中参数化的图像编码器函 数, 用于对自然场景文本图像中文本特 征进行提取。 2.根据权利要求1所述自监督对比学习自然场景中文本识别系统训练方法, 其特征在 于, 所述步骤1)中图像增强处理为: 对于一张自然场景文 本图像, 经过图像增强函 数tv,tv为 一个随机变换函数, 自然场景文本图像增强处理后, 获得m张增强处理后自然场景文本图 像, 处理后图像保留原图本质上的特 征。 3.根据权利要求1所述自监督对比学习自然场景中文本识别系统训练方法, 其特征在 于, 所述步骤 3)具体实现方法: 增强后的图像 正负样本 经过图像编码器函数fv后得到d维 特征向量hv作为图像编码器的最后输出, 同样地, 增强后的文本标签正负样本 经过文本 编码器函数fu后得到d维特 征向量hu作为文本编码器的最后输出; 得到hv和hu之后, 为了避免模型在训练过程中出现过拟合现象, 对hv和hu均采取非线性 转化, 将hv输入非线性投影函数gv, 从而得到特 征向量v作为gv的输出: 将hu输入非线性投影函数gu, 从而得到特 征向量u作为gu的输出: gv和gu属于两个不同模态的投影函数, 分别从它们的编码器空间投影到相同的d维空间 进行对比学习。 4.根据权利要求3所述自监督对比学习自然场景中文本识别系统训练方法, 其特征在 于, 所述步骤4)中损失计算方法: 在训练 时, 从训练数据中抽取一个小批量的N个图像 ‑文本 输入对(xv,xu), 并计算它们的特征向量对(v,u), 用(vi,ui)表示第i对特征向量对, 训练目 标包含两个损失函数计算, 第一个损失函数 是第i对图像 ‑文本对比损失为: 其中, <vi,ui>表示余弦相似度, 即<vi,ui>=vTu/||v||||u||, 用来度量vi和ui两者的相权 利 要 求 书 1/2 页 2 CN 114973226 A 2似性, 表示温度系数, 作为调节余弦相似度权重的超参数, 第二个损失函数是第i对 文本‑图像对比损失为: 最终训练损失定义为对每个小批次处理中所有正例图像 ‑文本对的两个损失的加权组 合, 选择所有小批次损失函数的平均值作为 最终训练损失: 其中, λ∈[0,1]是 标量权重。 5.根据权利要求4所述自监督对比学习自然场景中文本识别系统训练方法, 其特征在 于, 所述文本编码器中文本编码器函数fu参与文本标签正负样本对比学习, 通过两个损失 函数的加权计算, 辅助训练图像编码器函数, 提升文本识别精度。 6.一种自监督对比学习自然场景中文本识别系统中图像编码器训练方法, 其特征在 于, 将图像正负样本中的文本标签作为文本标签正负样本, 送入文本编码器中进行对比学 习, 作为图像编码器的辅助训练学习, 再采用图像正负样本中提取 的图像特征和文本标签 正负样本中提取 的文本特征组成特征对, 分别计算图像 ‑文本损失和文本 ‑图像损失, 将正 样本图像 ‑文本对的两个损失的加权组合最小为 目标对系统进行训练, 最终获得图像编码 器中参数化的图像编码器函数。权 利 要 求 书 2/2 页 3 CN 114973226 A 3

PDF文档 专利 自监督对比学习自然场景中文本识别系统训练方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 自监督对比学习自然场景中文本识别系统训练方法 第 1 页 专利 自监督对比学习自然场景中文本识别系统训练方法 第 2 页 专利 自监督对比学习自然场景中文本识别系统训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。