全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210391966.7 (22)申请日 2022.04.14 (71)申请人 北京知云再起科技有限公司 地址 100073 北京市丰台区南四环西路18 8 号十六区19号楼 9层101内1976号 (72)发明人 王嵬  (74)专利代理 机构 北京子焱知识产权代理事务 所(普通合伙) 11932 专利代理师 王倩 (51)Int.Cl. G06V 30/244(2022.01) G06V 30/10(2022.01) G06V 10/32(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的端到端英文手写体文 本检测识别技 术 (57)摘要 本发明涉及文本检测识别技术领域, 且公开 了一种基于深度学习的端到端英文手写体文本 检测识别技术, 包括文本检测识别方法, 包含以 下步骤: S1、 文本检测数据预处理; S2、 DBNet算法 模型训练; S3、 文本识别数据预处理; S4、 CRNN算 法模型训练; S5、 DBNet模型预测; S6、 仿射变换; S7、 CRNN模型预测; S8、 排序拼接文本区域; S9、 被 划掉字符过滤和替换。 该基于深度学习的端到端 英文手写体文本检测识别技术, 本发 明对于英文 手写体有针对性的优化数据和算法, 采取RGB三 通道直接训练能够大大提高DBNet对于文本区域 的识别准确率, 解决了英文手写体实拍图片的亮 度, 角度, 对比度, 手写体的格式字体不规范的问 题对模型的健壮性造成的影响。 权利要求书3页 说明书8页 附图1页 CN 114821601 A 2022.07.29 CN 114821601 A 1.一种基于深度学习的端到端英文手写体文本检测识别技术, 包括文本检测识别方 法, 其特征在于: 包 含以下步骤: S1、 文本检测数据预处 理; S2、 DBNet算法模型训练; S3、 文本识别数据预处 理; S4、 CRNN算法模型训练; S5、 DBNet模型 预测; S6、 仿射变换; S7、 CRNN模型预测; S8、 排序拼接文本区域; S9、 被划掉字符过 滤和替换。 2.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术, 其特征在于: 所述 步骤S1中, 进一 步包含: (1)根据英文手写图片中的字母宽, 高的统计, 多次验证判断输入图片的尺寸局部最优 是1280*1280; (2)绝大部分输入图片长宽不对等, 需要进行填充, 并记录等比例缩放的倍率, 背景填 充0也就是全黑, 过于接近文本区域的书写颜色, 填充255也就是全白, 和手写图片原本的作 业本颜色存在相当程度色差, 经 过对比验真, 确定填充245效果得到局部最优; (3)对输入图片进行归一化, 三个通道除以255, 再进行标准化, 然后三通道分别减去 [0.485,0.45 6,0.406], 再除以[0.2 29,0.224,0.225]; (4)文本区域标记是以图片左上角为原点, 用四个点的x, y坐标 标记文本区域; (5)对训练数据的文本区域按照比例0.4, 把文本框对内缩小然后得到shrink_map, 缩 小后的文本框内标1, 其他区域标0; 对训练数据的文本区域按照比例0.4, 把文本框对外扩 张和对内缩小得到threshold_map, 实际上是一个渐变区域, 设定最大值为0.7, 最小值为 0.3, 越靠 近原本文本 框值越大, 越远离值越小。 3.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术, 其特征在于: 所述 步骤S2中, 进一 步包含: (1)输入经过预处理的图片, 利用resnet50算法对图片进行不同尺度的特征提取, 把图 片的尺度降为原来的1/4,1/8,1/16,1/32, 同时对应的提高通道数量为256, 512,1024, 2048; (2)利用FPN算法组合不同尺度的特征, 根据组合的特征信息转换出概率矩阵P和阈值 矩阵T; (3) 利用可微分二值化 , 把概率矩阵 和阈值矩阵 转换成近似二值化矩阵 B为近似二 值化矩阵, 可微分, 能够用于反向传播; (4)模型输出三个矩阵, 概率矩阵P、 阈值矩阵T和近似二值化矩阵B, 对应存在三个 loss, 其包括: Loss1: 通过P和shri nk_map计算, 函数为交叉熵; loss2: 通过T, mask和threshold_map计算, mask是文本区域为1其他区域为0的矩阵, 函权 利 要 求 书 1/3 页 2 CN 114821601 A 2数为abs(T ‑threshold_map)*mask/mask.sum; loss3: 通过B和shri nk_map计算, 计算过程 为 intersecti on=B*shri nk_map*mask; union=(B*mask).sum+(shri nk_map*mask).sum; loss=1‑2.0*intersecti on/union。 总Loss=loss1+10*loss2+loss3, 通过反向传 播训练模型, 进行迭代, 迭代到指定轮数 或者loss反复波动不再 下降的时候停止训练。 4.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术, 其特征在于: 所述 步骤S3中, 进一 步包含: (1)文本识别模型不需要整张图片, 只需要裁剪出文本部分区域, 作为子图, 和标记上 对应的文本, 作为输入输出 数据; (2)对于同一张图片中每一个子图和对应的文本, 做以下处 理; (3)把子图等比例缩放至高为32, 长度不限, 不能超过320, 同时不做归一化和标准化处 理, 保留原图像素点作为输入; (4)对于文本标记, 本发明是针对英文手写, 模型字典只保留数字, 英文标点, 大小写英 文, 数据预处理过程中, 对中文标点转换成对应的英文标点, 同时针对性的增加的 ”_”作为 划掉单词的标记, 因为手写字体中存在写错单词需要划掉重写的情况, 增加 ”_”标记划掉单 词能够进一步的提升识别率, 被划掉的单词转换成对应长度的下划线组, 比如划掉 “apple”, 文本标记为 “_____”长度为5的下划线组; (5)为了保证训练的性能, 选择批量输入, 那么需要保证子图长度相同, 处理方法是对 同一张图片里面的所有子图进行 随机组合, 组成3*32*320的大子图, 每32个大子图组成一 个batch, 维度为32* 3*32*320。 5.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术, 其特征在于: 所述 步骤S4中, 进一 步包含: (1)输入批量B=32, 高度 H=32, 宽度W=320, 通道C=3的图片(32*3*32*320), 经过CNN 提取特征, 高度缩小为原来的1/32, 宽度缩小为原来的1/4, 通道由3变成512(32*1*80*512) [B*H*W*C]; (2)CNN网络输出的矩阵, 进入LSTM设置T=80(W/4), LSTM输出维度32*1*(W/4)* nclass,nclass代表字典中字符的总数, LSTM网络 输出的矩阵, 进行softmax; (3)softm ax之后接损失函数CTC(Connectionist  Temporal  Classification), 主要为 了解决图片长度和实际文本 长度不对应的问题, 从而 进行反向传播。 6.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术, 其特征在于: 所述 步骤S5中, 进一 步包含: (1)按照步骤一处 理输入图片, 输入到训练好的DBNet模型中; (2)预测过程只 需要用到概率矩阵P, 性能大大提高, 然后定义固定阈值, 进行二值化, 得到矩阵B, 矩阵B的大小为固定的1280 *1280; (3)根据矩阵B, 得到文本区域, 同时按照图片预处理时候的比例0.4进行放大, 得到真 正的文本区域, 提取对应的四个坐标点信息 。 7.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,权 利 要 求 书 2/3 页 3 CN 114821601 A 3

PDF文档 专利 一种基于深度学习的端到端英文手写体文本检测识别技术

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的端到端英文手写体文本检测识别技术 第 1 页 专利 一种基于深度学习的端到端英文手写体文本检测识别技术 第 2 页 专利 一种基于深度学习的端到端英文手写体文本检测识别技术 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。