全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210843758.6 (22)申请日 2022.07.18 (71)申请人 昆明理工大 学 地址 650093 云南省昆明市五华区学府路 253 (72)发明人 刘英莉 郑剑锋 沈韬 张广涛  (74)专利代理 机构 昆明明润知识产权代理事务 所(普通合伙) 53215 专利代理师 王鹏飞 (51)Int.Cl. G06V 30/146(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 30/41(2022.01) G06V 10/44(2022.01)G06V 10/48(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种从文档图像中定位表格的深度学习方 法 (57)摘要 本发明涉及一种从文档图像中定位表格的 深度学习方法, 属于目标检测技术领域。 首先将 所获取的文档图像进行霍夫变换, 检测图中包含 的线段; 将原图像和线 段信息输入训练后的检测 模型, 其中, 检测模型包含两个分支, 分别用于表 格边界框预测和线段分类; 结合线段的分类结 果, 对表格边界框进行修正, 得到更加准确的边 界框坐标。 检测模型训练时, 根据表格边界框的 分类回归损失和线段的分类损失优化参数, 整个 模型采用随机梯度下降法进行训练, 取所有损失 之和最小的一组参数作为最终检测模 型的参数; 本发明在传统目标检测模型的基础上, 引入了科 研文献中大量存在的表格框线信息, 提高了模型 定位表格坐标的准确度。 权利要求书3页 说明书6页 附图2页 CN 115359489 A 2022.11.18 CN 115359489 A 1.一种在文档图像中定位表格的方法, 其特 征在于: Step1: 收集包 含表格的P DF电子文档; Step2: 将P DF文档页面 转换为图像, 并将图像划分为训练集、 验证集和 测试集; Step3: 提取Step2所述图像中包含的线段, 并用线段两端点坐标表示, 将所述训练集与 验证集的图像及其对应的线段坐标输入到检测模型中训练, 根据线段的分类损失和边界框 的分类回归损失优化模型参数, 取训练过程中损失最小的一组参数, 做为模型最后使用的 参数; Step4: 将所述测试集图像和其对应的线段坐标包含表格的文档图像输入训练后的检 测模型, 得到线段分类结果和待修正表格边界框, 通过修正模块结合线段分类结果对表格 边界框进行优化, 得到最终表格坐标。 2.根据权利要求1所述的在文档图像中定位表格的方法, 其特征在于: 所述Step1中获 取的文档图像数据集, 通过labelme工具对其进行 标注。 3.根据权利 要求1所述的在文档图像 中定位表格的方法, 其特征在于: 所述Step3中, 通 过opencv软件库提供的霍夫变换 方法, 提取文档图像中的线段。 4.根据权利要求1所述的在文档图像中定位表格的方法, 其特征在于: Step3中所述检 测模型由主干网络和预测网络组成; 所述主干网络为残差卷积结合特 征金字塔的结构, 用于提取 特征图; 所述预测网络包 含两条并行分支: 分支一: 为传统R ‑CNN目标检测框架, 用于预测表格边界框; 分支二: 接收图像中的线段信息, 对线段进行二分类, 给 出分类概 率。 5.根据权利要求4所述的在文档图像中定位表格的方法, 其特征在于, 所述分支二具体 为: (1)获取线段位置, 其 位置信息由线段两端点的坐标 给出; (2)滤除倾 斜线段, 保留水平线和垂直线; (3)根据线段坐标, 以线段的中点为中心, 在原图上生成矩形投影区域; 根据线段种类 不同, 投影区域宽高比也不同; 对于水平线 段, 则以线 段长度为宽, 生成宽高比为4: 1的矩形 投影; 对于垂直线段, 则生成以线段长度为高, 宽高比为1: 4的矩形投影; (4)根据原图上的矩形投影, 在特征图上裁剪出感兴趣特征区域, 并对特征区域进行 ROI Align操作, 然后展平处理, 得到特征向量; 送入全 连接网络进行二分类, 若 该线段是表 格外框线则归为 正类, 否则归为负类。 6.根据权利 要求5所述的在文档图像 中定位表格的方法, 其特征在于: 所述Step4中, 修 正模块结合每条线段的分类结果对表格边界框进 行优化调整, 其对预测结果的具体修正步 骤为: Step4.1: 拆分表格边界框, 具体为: 将预测网络分支一预测的某个表格边界框T拆分为四条待修正线段, 线段以两端点坐 标表示, 其过程表示 为: 权 利 要 求 书 1/3 页 2 CN 115359489 A 2其中, x1、 y1为表格边界框左上角坐标, x2、 y2为表格边界框右下角坐标; 将拆分边界框后得到的四条线段的坐标储存在待修正矩阵L中, 其中, Lt=[x1 y1 x2  y1]表示边界框拆分后, 位于上方线段, Lr、 Lb、 Ll分别表示拆分边界框后, 位于右、 下、 左方的 线段; Step4.2: 过 滤负类线段, 具体为: 取预测网络分支二预测的正类概率超过0.9的线段, 得到目标线段集合{H1, H2…, Hn}, 其对应的分类概 率为{k1, k2…, kn}; Step4.3: 匹配目标线段, 具体为: 对每个待修正线段Li=[lx1, ly1, lx2, ly2], 遍历目标线段集合, 若有目标线段Hj=[hx1, hy1, hx2, hy2], 符合: 其中: 则称目标线段Hj在待修正线段Li的匹配范围之内; 在待修正线段的匹配范围内寻找正类概 率最高的目标线段的过程可称之为匹配; 在所述Step4.2中得到的目标线段集合{H1, H2…, Hn}中, 寻找与Lt、 Lr、 Lb、 Ll匹配的目标 线段, 分别记作Ht、 Hr、 Hb、 Hl, 并记录其 为正类的概 率, 可得匹配矩阵L ′: 其中, i=t, r, b, l; Step4.4: 融合匹配成功的目标线段, 对边界框进行修 正, 具体为: 取待修正 的表格边界框T=[x1, y1, x2, y2]的中心点坐标xc、 yc, 根据中心点到边框的垂 直距离, 可将表格边界框编码为D=[d1 d2 d3 d4]: 其中, d1、 d2、 d3、 d4分别为中心点到上、 左、 下、 右边框的垂直距离; 由Step4.3所 得匹配矩阵L ′中的每条匹配线段 可由类似规则编码为: 权 利 要 求 书 2/3 页 3 CN 115359489 A 3

PDF文档 专利 一种从文档图像中定位表格的深度学习方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种从文档图像中定位表格的深度学习方法 第 1 页 专利 一种从文档图像中定位表格的深度学习方法 第 2 页 专利 一种从文档图像中定位表格的深度学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。