(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210391966.7
(22)申请日 2022.04.14
(71)申请人 北京知云再起科技有限公司
地址 100073 北京市丰台区南四环西路18 8
号十六区19号楼 9层101内1976号
(72)发明人 王嵬
(74)专利代理 机构 北京子焱知识产权代理事务
所(普通合伙) 11932
专利代理师 王倩
(51)Int.Cl.
G06V 30/244(2022.01)
G06V 30/10(2022.01)
G06V 10/32(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的端到端英文手写体文
本检测识别技 术
(57)摘要
本发明涉及文本检测识别技术领域, 且公开
了一种基于深度学习的端到端英文手写体文本
检测识别技术, 包括文本检测识别方法, 包含以
下步骤: S1、 文本检测数据预处理; S2、 DBNet算法
模型训练; S3、 文本识别数据预处理; S4、 CRNN算
法模型训练; S5、 DBNet模型预测; S6、 仿射变换;
S7、 CRNN模型预测; S8、 排序拼接文本区域; S9、 被
划掉字符过滤和替换。 该基于深度学习的端到端
英文手写体文本检测识别技术, 本发 明对于英文
手写体有针对性的优化数据和算法, 采取RGB三
通道直接训练能够大大提高DBNet对于文本区域
的识别准确率, 解决了英文手写体实拍图片的亮
度, 角度, 对比度, 手写体的格式字体不规范的问
题对模型的健壮性造成的影响。
权利要求书3页 说明书8页 附图1页
CN 114821601 A
2022.07.29
CN 114821601 A
1.一种基于深度学习的端到端英文手写体文本检测识别技术, 包括文本检测识别方
法, 其特征在于: 包 含以下步骤:
S1、 文本检测数据预处 理;
S2、 DBNet算法模型训练;
S3、 文本识别数据预处 理;
S4、 CRNN算法模型训练;
S5、 DBNet模型 预测;
S6、 仿射变换;
S7、 CRNN模型预测;
S8、 排序拼接文本区域;
S9、 被划掉字符过 滤和替换。
2.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,
其特征在于: 所述 步骤S1中, 进一 步包含:
(1)根据英文手写图片中的字母宽, 高的统计, 多次验证判断输入图片的尺寸局部最优
是1280*1280;
(2)绝大部分输入图片长宽不对等, 需要进行填充, 并记录等比例缩放的倍率, 背景填
充0也就是全黑, 过于接近文本区域的书写颜色, 填充255也就是全白, 和手写图片原本的作
业本颜色存在相当程度色差, 经 过对比验真, 确定填充245效果得到局部最优;
(3)对输入图片进行归一化, 三个通道除以255, 再进行标准化, 然后三通道分别减去
[0.485,0.45 6,0.406], 再除以[0.2 29,0.224,0.225];
(4)文本区域标记是以图片左上角为原点, 用四个点的x, y坐标 标记文本区域;
(5)对训练数据的文本区域按照比例0.4, 把文本框对内缩小然后得到shrink_map, 缩
小后的文本框内标1, 其他区域标0; 对训练数据的文本区域按照比例0.4, 把文本框对外扩
张和对内缩小得到threshold_map, 实际上是一个渐变区域, 设定最大值为0.7, 最小值为
0.3, 越靠 近原本文本 框值越大, 越远离值越小。
3.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,
其特征在于: 所述 步骤S2中, 进一 步包含:
(1)输入经过预处理的图片, 利用resnet50算法对图片进行不同尺度的特征提取, 把图
片的尺度降为原来的1/4,1/8,1/16,1/32, 同时对应的提高通道数量为256, 512,1024,
2048;
(2)利用FPN算法组合不同尺度的特征, 根据组合的特征信息转换出概率矩阵P和阈值
矩阵T;
(3) 利用可微分二值化 , 把概率矩阵 和阈值矩阵 转换成近似二值化矩阵
B为近似二 值化矩阵, 可微分, 能够用于反向传播;
(4)模型输出三个矩阵, 概率矩阵P、 阈值矩阵T和近似二值化矩阵B, 对应存在三个
loss, 其包括:
Loss1: 通过P和shri nk_map计算, 函数为交叉熵;
loss2: 通过T, mask和threshold_map计算, mask是文本区域为1其他区域为0的矩阵, 函权 利 要 求 书 1/3 页
2
CN 114821601 A
2数为abs(T ‑threshold_map)*mask/mask.sum;
loss3: 通过B和shri nk_map计算, 计算过程 为
intersecti on=B*shri nk_map*mask;
union=(B*mask).sum+(shri nk_map*mask).sum;
loss=1‑2.0*intersecti on/union。
总Loss=loss1+10*loss2+loss3, 通过反向传 播训练模型, 进行迭代, 迭代到指定轮数
或者loss反复波动不再 下降的时候停止训练。
4.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,
其特征在于: 所述 步骤S3中, 进一 步包含:
(1)文本识别模型不需要整张图片, 只需要裁剪出文本部分区域, 作为子图, 和标记上
对应的文本, 作为输入输出 数据;
(2)对于同一张图片中每一个子图和对应的文本, 做以下处 理;
(3)把子图等比例缩放至高为32, 长度不限, 不能超过320, 同时不做归一化和标准化处
理, 保留原图像素点作为输入;
(4)对于文本标记, 本发明是针对英文手写, 模型字典只保留数字, 英文标点, 大小写英
文, 数据预处理过程中, 对中文标点转换成对应的英文标点, 同时针对性的增加的 ”_”作为
划掉单词的标记, 因为手写字体中存在写错单词需要划掉重写的情况, 增加 ”_”标记划掉单
词能够进一步的提升识别率, 被划掉的单词转换成对应长度的下划线组, 比如划掉
“apple”, 文本标记为 “_____”长度为5的下划线组;
(5)为了保证训练的性能, 选择批量输入, 那么需要保证子图长度相同, 处理方法是对
同一张图片里面的所有子图进行 随机组合, 组成3*32*320的大子图, 每32个大子图组成一
个batch, 维度为32* 3*32*320。
5.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,
其特征在于: 所述 步骤S4中, 进一 步包含:
(1)输入批量B=32, 高度 H=32, 宽度W=320, 通道C=3的图片(32*3*32*320), 经过CNN
提取特征, 高度缩小为原来的1/32, 宽度缩小为原来的1/4, 通道由3变成512(32*1*80*512)
[B*H*W*C];
(2)CNN网络输出的矩阵, 进入LSTM设置T=80(W/4), LSTM输出维度32*1*(W/4)*
nclass,nclass代表字典中字符的总数, LSTM网络 输出的矩阵, 进行softmax;
(3)softm ax之后接损失函数CTC(Connectionist Temporal Classification), 主要为
了解决图片长度和实际文本 长度不对应的问题, 从而 进行反向传播。
6.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,
其特征在于: 所述 步骤S5中, 进一 步包含:
(1)按照步骤一处 理输入图片, 输入到训练好的DBNet模型中;
(2)预测过程只 需要用到概率矩阵P, 性能大大提高, 然后定义固定阈值, 进行二值化,
得到矩阵B, 矩阵B的大小为固定的1280 *1280;
(3)根据矩阵B, 得到文本区域, 同时按照图片预处理时候的比例0.4进行放大, 得到真
正的文本区域, 提取对应的四个坐标点信息 。
7.根据权利要求1所述的一种基于深度学习的端到端英文手写体文本检测识别技术,权 利 要 求 书 2/3 页
3
CN 114821601 A
3
专利 一种基于深度学习的端到端英文手写体文本检测识别技术
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:06上传分享