全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210363354.7 (22)申请日 2022.04.08 (65)同一申请的已公布的文献号 申请公布号 CN 114463760 A (43)申请公布日 2022.05.10 (73)专利权人 华南理工大 学 地址 510000 广东省广州市天河区五山路 381号 专利权人 人工智能与数字经济广东省实验 室 (广州) (72)发明人 黄双萍 陈洲楠 杨代辉 梁景麟  彭政华  (74)专利代理 机构 东莞卓诚专利代理事务所 (普通合伙) 44754 专利代理师 朱鹏 (51)Int.Cl. G06V 30/32(2022.01) G06V 20/62(2022.01) G06V 30/10(2022.01)G06V 10/28(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 WO 2021136144 A1,2021.07.08 CN 110188669 A,2019.08.3 0 CN 109410242 A,2019.0 3.01 CN 114428866 A,2022.05.03 US 2021027470 A1,2021.01.28 shuangpi ng huang. 《OBC 306: A Large- Scale Oracle Bo ne Character Recogn ition Dataset》 . 《2019 I nternati onal Conference on Document Analysis and Recogn ition 》 .2020,第681- 688页. 审查员 郑明月 (54)发明名称 一种基于双流编码的文字图像书写轨迹恢 复方法 (57)摘要 本发明公开了一种基于双流编码的文字图 像书写轨迹恢复方法, 包括以下步骤: 将文字图 像调整为预设尺寸并进行二值化处理; 构建双流 编码网络, 所述的双流编码网络输入为文字图 像, 输出为双 流融合编码 特征 ; 构建解码网络, 所述的解码网络的输入为双流融合编 码特征 , 输出为预测文字书写轨迹序列; 联合训练双流编 码网络和解码网络, 获得文字图像书写轨迹恢复 网络模型; 利用训练完成的文字图像书写轨迹恢 复网络模型进行书写轨迹恢复。 本发 明方法在编 码过程中, 分别提取文字在竖直和水平方向上的 特征, 实现对特征进行降采样、 减少参数量的同 时, 保留必要的文字字形信息, 帮助后续解码精确地反映文字的字形, 有效提升文字图像书写轨 迹的恢复性能。 权利要求书3页 说明书7页 附图2页 CN 114463760 B 2022.06.28 CN 114463760 B 1.一种基于双流编码的文字图像书 写轨迹恢复方法, 其特 征在于, 包括以下步骤: 步骤1, 将文字图像调整为预设尺寸并进行二 值化处理; 步骤2, 构建双流编码网络, 所述的双流编码网络输入为文字图像, 输出为双流融合编 码特征 ; 步骤3, 构建解码网络, 所述的解码网络的输入为双流融合编码特征 , 输出为预测文 字书写轨迹序列; 步骤4, 联合训练双流编码网络和解码网络, 获得文字图像书 写轨迹恢复网络模型; 步骤5, 利用训练完成的文字图像书 写轨迹恢复网络模型进行书 写轨迹恢复; 所述的双流编码网络包括竖直卷积循环神经网络、 水平卷积循环神经网络和注意力模 块; 并行连接的竖直卷积循环神经网络和水平卷积循环神经网络均包含CNN编码器和 BiLSTM编码器, 竖直卷积循环神经网络中的CNN编码器利用竖直方向上的降采样操作来进 行竖直方向上的降采样, 然后配合卷积操作, 对输入文字图像进 行编码, 得到文字在水平方 向上的一维方向特征 , 一维方向特征 在方向维度上拆分后得到以方向为时序的特征 序列, 竖直卷积循环神经网络中的BiLSTM编码器对时序的特征序列进行编码, 得到双流编 码特征 ; 水平卷积循环神经网络中的CNN编码器利用水平方向上的降采样操作来进行水 平方向上的降采样, 然后配合卷积操作, 对输入文字图像进 行编码, 得到文字在竖直方向上 的一维方向特征 , 一维方向特征 在方向维度上拆分后得到以方向为时序的特征序 列, 水平卷积循环神经网络中的BiLSTM编码器对时序的特征序列进行编码, 得到双流编码 特征 ; 在注意力模块中对双流编码特 征 和 进行融合, 得到双流融合编码特 征 : , 其中, , , 通过合并特征 和 得到 , 和 为 的第i个分量和第j个分量, 表示 的注意力权重, 表示 的注 意力权重, 表示一个全 连接层的函数, 为 的长度, 为一个全连接层的可学习 参数。 2.根据权利要求1所述的一种基于双流编码 的文字图像书写轨迹恢复方法, 其特征在 于, 所述的降采样 操作为非对称池化操作、 非对称卷积 操作或全连接层网络操作降采样。 3.根据权利要求1所述的一种基于双流编码 的文字图像书写轨迹恢复方法, 其特征在 于, 所述的解码网络为LSTM解码器, LSTM解码 器以双流融合编码特征 为输入, 依次预测轨权 利 要 求 书 1/3 页 2 CN 114463760 B 2迹点; LSTM解码器 根据 时刻的预测值 和隐藏层向量 , 预测 时刻的轨迹点 信息 , , 其中, 和 表示 时刻的位置坐标, 表示 时刻笔尖的状态, 3种状态对应的意义为: “笔尖正与纸面接 触”,“当前笔画书写完毕, 临时抬笔 ”和“所有笔画书写完毕 ”, 最终, 为预测的文字书写轨迹 序列。 4.根据权利要求3所述的一种基于双流编码 的文字图像书写轨迹恢复方法, 其特征在 于, 所述的联合训练双流编码网络和解码网络的过程中, 编解码网络损失函数为: 为平衡各个损失权 重的预设 常数, 为L2损失, 计算公式为: 其中, 和 分别为所述解码网络对位置的X坐标和Y坐标的预测值, 和 分别为 位置的X坐标和Y坐标的标签值, N 为轨迹点的数目; 为交叉熵损失, 计算公式为: 其中, 为所述解码网络对笔尖状态 的概率预测值, 为笔尖状态的标签 值; 为动态时间规整损失, 使用动态时间规整算法寻找预测和标签轨迹序列之间的 最优对齐路径, 计算在最优 对齐路径下的序列距离作为预测序列的全局损失: 给定预测轨 迹序列 和标签轨 迹序列 , 序列长度分别为 和 , 设置欧式距离函数 用于 表征轨迹点 和 的 距离 , 定义对齐路径 , 其中 , , 为对齐路径的长度, 对齐路径的每一项定义了 和 的 对应关系: 权 利 要 求 书 2/3 页 3 CN 114463760 B 3

PDF文档 专利 一种基于双流编码的文字图像书写轨迹恢复方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双流编码的文字图像书写轨迹恢复方法 第 1 页 专利 一种基于双流编码的文字图像书写轨迹恢复方法 第 2 页 专利 一种基于双流编码的文字图像书写轨迹恢复方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。