全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210344990.5 (22)申请日 2022.04.02 (71)申请人 成都卫士通信息产业股份有限公司 地址 610041 四川省成 都市高新区云华路 333号 (72)发明人 祝蕾 吴杰  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王燕 (51)Int.Cl. G06V 30/414(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/44(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种PDF文档布局检测方法、 装置、 设备及介 质 (57)摘要 本申请公开了一种PDF布局文档检测方法、 装置、 设备及介质, 涉及计算机视觉技术领域, 该 方法包括: 获取各类历史PDF文档, 并将历史PDF 文档的页面转化为图片; 根据预设标注框对图片 中的目标对象进行标注得到已标注 图片和目标 标注信息; 根据已标注图片和目标标注信息对目 标检测点网络进行训练得到训练模 型; 目标检测 点网络为基于图片中的关键点进行目标检测的 网络; 将待检测PDF文档输入训练模型以对待检 测PDF文档进行布局检测。 可见, 本申请使训练模 型检测各类PDF文档, 能够更细致地区分标题; 本 申请将历史PDF文档的页面转化为图片可 实现对 扫描型PDF文档的检测; 利用基于关键点的目标 检测网络, 提高了布局检测算法模 型的精度和速 度。 权利要求书3页 说明书14页 附图10页 CN 114663904 A 2022.06.24 CN 114663904 A 1.一种PDF文档布局检测方法, 其特 征在于, 包括: 获取各类预设内容、 预设格式和预设语言的历史PDF文档, 并将所述历史PDF文档对应 的全部页面 转化为图片; 根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标 标注信息; 所述目标 标注信息包 含目标标注类别和目标 标注位置坐标; 根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得 到训练模型; 所述目标检测点网络为基于图片中的关键点进行目标检测的网络; 将待检测P DF文档输入所述训练模型以对所述待检测P DF文档行布局检测。 2.根据权利要求1所述的PDF文档布局检测方法, 其特征在于, 所述根据所述已标注图 片以及对应的所述目标 标注信息对目标检测点网络进行训练, 包括: 将所述已标注图片划分至训练集得到训练图片, 并将所述目标标注信 息作为所述训练 集的预设格式的训练标签; 根据所述训练图片以及所述训练标签对所述目标检测点网络进行训练。 3.根据权利要求2所述的PDF文档布局检测方法, 其特征在于, 所述根据所述训练图片 以及所述训练标签对所述目标检测点网络进行训练, 包括: 对所述训练图片进行 预处理得到预处 理后图片; 将所述预处理后图片以及所述训练标签输入所述目标检测点网络中的MobileNet ‑V2 基础网络, 以便所述MobileNet ‑V2基础网络对 所述预处理后图片进行特征提取得到不同初 始特征图; 将所述不同初始特征图输入所述目标检测点网络中的特征金字塔网络, 以便所述特征 金字塔基于预设通道数量的输出通道得到不同强化后特 征图; 检测所述目标对象的中心点以及预设点数量的边界点, 并将所述中心点和所述边界点 作为用于构成目标检测框的关键点, 然后基于所述目标检测框对所述强化后特征图进 行目 标检测, 并输出目标检测信息 。 4.根据权利要求3所述的PDF文档布局检测方法, 其特征在于, 所述对所述训练图片进 行预处理得到预处 理后图片, 包括: 将所述训练图片的边长调 整至预设长度范围得到调整后训练图片, 并对所述调 整后训 练图片的RGB三通道进行归一化处理得到处理后训练图片, 然后对所述处理后训练图片进 行填充处 理和随机水平翻转得到预处 理后图片。 5.根据权利要求3所述的PDF文档布局检测方法, 其特征在于, 所述基于所述目标检测 框对所述强化后特 征图进行目标检测, 并输出目标检测信息, 包括: 以所述强化后特征图的每一个像素点为中心, 预测所述目标对象中所述关键点的回归 前偏移量, 并基于所述回归前偏移 量进行第一卷积运算完成第一阶段偏移 量回归得到回归 后偏移量, 然后基于所述 强化后特征图和所述回归后 偏移量进行第二卷积运算得到新特征 图, 将所述 新特征图输入分类层得到类别得分图; 所述类别得分图中标明目标检测类别; 基于所述新特征图进行第 一卷积运算以完成第 二阶段偏移量 回归, 并将所述第 一阶段 偏移量和所述第二阶段偏移 量进行结合以得到目标偏移 量, 然后基于所述目标偏移 量确定 目标位置坐标; 输出包含所述目标检测类别和所述目标位置坐标的目标检测信息 。权 利 要 求 书 1/3 页 2 CN 114663904 A 26.根据权利要求5所述的PDF文档布局检测方法, 其特征在于, 所述根据所述已标注图 片以及对应的所述目标 标注信息对目标检测点网络进行训练以得到训练模型, 包括: 基于所述目标检测信息以及所述训练标签, 利用第一损 失函数计算类别损 失、 第二损 失函数计算位置坐标损失、 第三损失函数计算目标检测框损失; 其中, 所述训练标签包含训 练对象类别和训练对象位置坐标, 所述类别损失表示所述目标检测类别与训练对象类别之 间的差别, 所述位置坐标损失表示所述目标检测位置坐标与所述训练对象位置坐标之 间的 差别, 所述目标检测框损失表示所述目标检测框与所述预设标注框之间的差别; 根据所述类别损 失、 所述位置坐标损 失以及所述目标检测框损 失, 利用具有预设迭代 次数、 预设权重衰减和预设初始学习率的随机梯度下降算法对目标检测点网络进 行优化训 练以更新模型参数 得到训练模型。 7.根据权利要求1所述的PDF文档布局检测方法, 其特征在于, 所述根据所述已标注图 片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型之后, 还包 括: 利用非极大值抑制算法对所述目标检测框进行后处 理得到后处 理模块; 将所述MobileNet ‑V2基础网络中的卷积过程以及归一化操作进行融合, 并将测试集中 的所述测试图片的边长调整为预设数值得到调整后测试图片; 基于所述后处理模块和融合后MobileNet ‑V2基础网络对所述训练模型进行调整得到 调整后模型; 利用所述调 整后测试图片以及测试标签对所述调整后模型进行测试, 以便根据测试结 果判断是否继续对所述训练模型进行训练。 8.根据权利要求1至7任一项所述的P DF文档布局检测方法, 其特 征在于, 还 包括: 确定第一预设已标注图片比例以及第二预设已标注图片比例; 按照所述第一预设已标注图片比例将相应数量的所述已标注图片以及所述目标标注 信息划分至所述训练集, 以便利用所述训练集对所述目标检测点网络进 行训练以得到所述 训练模型; 按照所述第二预设已标注图片比例将相应数量的所述已标注图片以及所述目标标注 信息划分至所述测试集, 以便利用所述测试集对所述训练模型进行测试。 9.一种PDF文档布局检测装置, 其特 征在于, 包括: 文档获取模块, 用于获取 各类预设内容、 预设格式和预设语言的历史P DF文档; 图片转化模块, 用于将所述历史P DF文档对应的全部页面 转化为图片; 图片标注模块, 用于根据预设标注框对所述图片中的目标对象进行标注得到已标注图 片以及对应的目标 标注信息; 所述目标 标注信息包 含目标标注类别和目标 标注位置坐标; 模型训练模块, 用于根据所述已标注图片以及对应的所述目标标注信 息对目标检测点 网络进行训练以得到训练模型; 所述目标检测点网络为基于图片中的关键点进行目标检测 的网络; 布局检测模块, 用于将待检测PDF文档输入所述训练模型以对所述待检测 PDF文档进行 布局检测。 10.一种电子设备, 其特征在于, 包括处理器和存储器; 其中, 所述处理器执行所述存储 器中保存的计算机程序时实现如权利要求1至8任一项所述的P DF文档布局检测方法。权 利 要 求 书 2/3 页 3 CN 114663904 A 3

PDF文档 专利 一种PDF文档布局检测方法、装置、设备及介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种PDF文档布局检测方法、装置、设备及介质 第 1 页 专利 一种PDF文档布局检测方法、装置、设备及介质 第 2 页 专利 一种PDF文档布局检测方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。