全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210371955.2 (22)申请日 2022.04.11 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 唐月标 叶泽锐 黄镜澄 张丹枫  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 刘熔 董骁毅 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01) (54)发明名称 一种文本检测模 型的建立方法、 文本检测方 法及装置 (57)摘要 本发明提供一种文本检测模 型的建立方法、 文本检测方法及装置, 涉及人工智能技术领域。 所述方法包括: 获取文本检测训练数据; 基于所 述文本检测训练数据和原始模型, 训练获得文本 检测模型; 其中, 所述原始模型包括特征提取模 块, 所述特征提取模块包括多个级联的特征提取 单元, 每个特征提取单元包括依次相连的卷积池 化子单元和注 意力子单元。 本发 明实施例提供的 文本检测模型的建立方法、 文本检测方法及装 置, 提高了文本 检测模型的可靠性。 权利要求书2页 说明书11页 附图6页 CN 114639095 A 2022.06.17 CN 114639095 A 1.一种文本检测模型的建立方法, 其特 征在于, 包括: 获取文本检测训练数据; 基于所述文本检测训练数据和原始模型, 训练获得文本检测模型; 其中, 所述原始模型 包括特征提取模块, 所述特征提取模块包括多个级联的特征提取单元, 每个特征提取单元 包括依次相连的卷积池化子单 元和注意力子单 元。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本检测训练数据和 原始模 型, 训练获得文本检测模型包括: 通过每个特征提取单元包括的卷积池化子单元对输入图像进行特征提取, 获得特征提 取图; 通过每个特征提取单元包括的注意力 子单元对特征提取图进行特征增强处理, 获得增 强特征图。 3.根据权利要求2所述的方法, 其特征在于, 每个注意力 子单元包括权重提取通道和时 序特征提取通道, 其中: 所述权重提取通道包括第一卷积层、 第一图像重构层、 第二卷积层、 第二图像重构层、 归一化层、 第三卷积层、 第一标准化层、 第一激活层和第四卷积层; 所述时序特征提取通道 包括时序提取层; 所述第一卷积层、 所述第 二卷积层和所述 时序提取层的输入端分别与对应的卷积池化 子单元的输出端相连; 所述第一卷积层的输出端与所述第一图像重构层的输入端相连, 所 述第二卷积层的输出端与所述第二图像重构层的输入端相连, 所述第二图像重构层的输出 端与所述归一化层的输入端相连, 所述第一图像重构层的输出结果与所述归一化层的输出 结果的叉乘结果作为所述第三卷积层的输入, 所述第三卷积层的输入端与所述第一标准化 层的输入端相连, 所述第一标准化层的输出端与所述第一激活层的输入端相连, 所述第一 激活层的输出 结果与所述时序提取层的输出 结果的点乘结果作为所述第四卷积层的输入。 4.根据权利要求2所述的方法, 其特征在于, 每个注意力 子单元包括权重提取通道和时 序特征提取通道, 其中: 所述权重提取通道包括依次连接的第五卷积层、 全局池化层、 第六卷积层、 第 二标准化 层和第二激活层, 所述时序特 征提取通道包括时序提取层; 所述第五卷积层和所述 时序提取层的输入端与对应的卷积池化子单元的输出端相连; 所述权重提取通道的输出结果与所述时序特征提取通道的输出结果的点乘结果作为所述 注意力子单 元的输出 结果。 5.根据权利要求1所述的方法, 其特征在于, 所述特征提取模块包括4 ‑8个级联的特征 提取单元。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述文本检测训练数据和 原始模 型, 训练获得文本检测模型包括: 通过优化器加快 所述文本检测模型的训练过程。 7.根据权利要求1至6任一项所述的方法, 其特征在于, 所述文本检测训练数据包括不 同字体大小、 不同字体 格式和不同文件角度的文本图像。 8.一种基于权利要求1至7任一项所述的文本检测模型的建立方法的文本检测方法, 其 特征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114639095 A 2获取待检测文本图像; 基于所述待检测文本图像以及文本检测模型, 获得所述待检测文本图像对应的检测结 果。 9.一种文本检测模型的建立装置, 其特 征在于, 包括: 第一获取模块, 用于获取文本检测训练数据; 训练模块, 用于基于所述文本检测训练数据和原始模型, 训练获得文本检测模型; 其 中, 所述原始模型包括特征提取模块, 所述特征提取模块包括多个级联的特征提取单元, 每 个特征提取单元包括依次相连的卷积池化子单 元和注意力子单 元。 10.一种基于权利要求9所述的文本检测模型的建立装置的文本检测装置, 其特征在 于, 包括: 第二获取模块, 用于获取待检测文本图像; 检测模块, 用于基于所述待检测文本 图像以及文本检测模型, 获得所述待检测文本 图 像对应的检测结果。 11.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的 方法。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至8任一项所述方法的步骤。 13.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序, 所述计 算机程序被处 理器执行时实现权利要求1至8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114639095 A 3

PDF文档 专利 一种文本检测模型的建立方法、文本检测方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本检测模型的建立方法、文本检测方法及装置 第 1 页 专利 一种文本检测模型的建立方法、文本检测方法及装置 第 2 页 专利 一种文本检测模型的建立方法、文本检测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。