全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210720007.5 (22)申请日 2022.06.23 (71)申请人 中核核信信息技术 (北京) 有限公司 地址 100091 北京市海淀区骚子营1号院 申请人 核工业计算机 应用研究所 (72)发明人 姜礼瑞 曾喻 马文君 张文军  (74)专利代理 机构 核工业专利中心 1 1007 专利代理师 孙成林 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 40/174(2020.01) G06F 40/18(2020.01) G06F 40/189(2020.01) (54)发明名称 一种文本结构化的系统及方法 (57)摘要 本发明属于计算机应用领域, 具体涉及一种 文本结构化的系统及方法。 括信息提取模块、 信 息分析处理模块和结构化信息生成模块; 包括如 下步骤: 步骤1: 通过信息提取模块对文本信息进 行提取; 步骤2: 通过信息分析处理模块对提取信 息进行处理、 存储; 步骤3: 通过结构化信息生成 模块对处理后的信息进行结构化存储。 本发明的 有益效果在于: 通过对非结构化的文本表格数据 进行提取, 并初始化配置文件, 将提取信息存储 至配置文件, 按照顺序进行校验, 通过结构化信 息生成模块对提取信息进行格式化, 得到结构化 文本, 从而实现对文本表格数据的结构化过程, 有效提升文本使用效率。 权利要求书1页 说明书3页 附图1页 CN 115168344 A 2022.10.11 CN 115168344 A 1.一种文本结构化的系统, 其特征在于: 包括信 息提取模块、 信 息分析处理模块和结构 化信息生成模块; 所述的信 息提取模块将所需要处理 的非结构化文本表格信 息进行提取, 并对提取的信 息进行分类, 分别针对表格层级、 内容及顺序进行提取, 并写入对应层级的配置文件, 配置 文件按照名称确定提取顺序; 所述的信 息分析处理模块对信 息提取模块所提取的信 息进行分析处理, 按照信 息提取 模块的分类 配置文件进行存 储; 所述的结构化信 息生成模块是对配置文件中的内容及 关系数据进行格式化, 重新生成 符合要求的结构化数据文件, 输出至数据库进行存 储。 2.如权利要求1所述的一种 文本结构化的系统, 其特征在于: 所述的信 息提取模块按照 提取结果分为多次提取, 直至信息提取完成, 每次提取 的任务需求至少提取一个选中的目 标表格信息进行提取, 按照表格层级一次提取, 将提取 结果存储至配置文件中。 3.如权利要求1所述的一种 文本结构化的系统, 其特征在于: 所述的信 息分析处理模块 还需要确定提取表格信息的数据字段与文档结果的关系, 按照表格关系对 数据字段进 行校 验, 以确定数据关系的准确性, 同时将该 结果关系存 储至配置文件中。 4.如权利要求1所述的一种 文本结构化的系统, 其特征在于: 所述的信 息分析处理模块 最终将配置文件内的数据构造为所需的树结构; 1、 根据数据内容, 获取树结构中父节点与子节点的对应关系; 2、 对每一条 数据进行处 理, 获取这行 数据父节点的信息; 3、 根据这条 数据的父节点信息, 从所有数据中找到这 一条父节点数据; 4、 使用这条 数据与找到的数据构造树形关系; 5、 对所有数据执 行上述步骤。 5.一种文本结构化的方法, 其特 征在于, 包括如下步骤: 步骤1: 通过信息提取模块对文本信息进行提取; 步骤2: 通过信息分析处 理模块对提取信息进行处 理、 存储; 步骤3: 通过 结构化信息生成模块对处 理后的信息进行 结构化存 储。 6.如权利要求5所述的一种文本结构化的方法, 其特征在于: 所述的步骤1中所述的文 本信息包括 word文件及excel文件内的文本信息 。 7.如权利要求5所述的一种文本结构化的方法, 其特征在于: 所述的步骤2中的提取信 息进行处 理包括: 步骤21: 当数据文件 包涵合并单 元格时, 需要将多列表合并到一 起; 步骤22: 同一数据多行的处理, 对于同一条数据占据多行, 将对文件的内容布局进行分 析归类, 将同一条 数据合并成一行; 步骤23: 包涵多列的数据在一个单元格内的处理, 按分隔符将表头及表内容分开, 并计 算表头、 内容拆分成多列; 步骤24: 表头、 内容未对齐处 理, 按照数据类型及布局信息对表头、 内容进行对齐处 理; 步骤25: 分页数据处理, 按照分表处表格的线条信息及单元格是否封闭判断分页内容 是否需要合并处 理。权 利 要 求 书 1/1 页 2 CN 115168344 A 2一种文本结构化的 系统及方 法 技术领域 [0001]本发明属于计算机应用领域, 具体涉及一种文本结构化的系统及方法。 背景技术 [0002]目前, 信息技术不断发展, 各行业都通过信息技术来不断提高效率和生产力, 海量 文本数据的积累, 已经严重阻碍生产效率的提高, 如何利用这些文本数据中的有用信息已 经尤为迫切。 而目前文本结构化框架没有包涵深度学习模型训练, 很明显, 这对于深度学习 技术来进行文本结构化的方法带来了一定的困难, 无法对海量文本数据进行快速处理, 对 生产效率带来了一定影响。 发明内容 [0003]本发明的目的提供一种文本结构化的系统及方法, 解决现有技术中目前的文本结 构化框架中不包含对表格文本结构化学习模型及训练模块, 没有办法解决表格信息文本结 构化的问题。 [0004]本发明的技术方案如下: 一种文本结构化的系统, 包括信息提取模块、 信息分析处 理模块和结构化信息生成模块; [0005]所述的信息提取模块将 所需要处理的非结构化文本表格信息进行提取, 并对提取 的信息进行分类, 分别针对表格层级、 内容及顺序进行提取, 并写入对应层级的配置文件, 配置文件按照名称确定提取顺序; [0006]所述的信息分析处理模块对信息提取模块所提取的信息进行分析处理, 按照信息 提取模块的分类配置文件进行存储, 并对提取信息结果进行校验, 确保提取表格信息内容 的准确性; [0007]所述的结构化信息生成模块是对配置文件中的内容及关系数据进行格式化, 重新 生成符合要求的结构化数据文件, 输出至数据库进行存 储。 [0008]所述的信息提取模块按照提取结果分为多次提取, 直至信息提取完成, 每次提取 的任务需求至少提取一个选中的目标表格信息进行提取, 按照表格层级一次提取, 将提取 结果存储至配置文件中。 [0009]所述的信息分析处理模块还需要确定提取表格信息的数据字段与文档结果的关 系, 按照表格关系对 数据字段进 行校验, 以确定数据关系的准确性, 同时将该结果关系存储 至配置文件中。 [0010]所述的信息分析处 理模块最终将配置文件内的数据构造为所需的树结构; [0011]1、 根据数据内容, 获取树结构中父节点与子节点的对应关系; [0012]2、 对每一条 数据进行处 理, 获取这行 数据父节点的信息; [0013]3、 根据这条 数据的父节点信息, 从所有数据中找到这 一条父节点数据; [0014]4、 使用这条 数据与找到的数据构造树形关系; [0015]5、 对所有数据执 行上述步骤。说 明 书 1/3 页 3 CN 115168344 A 3

PDF文档 专利 一种文本结构化的系统及方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本结构化的系统及方法 第 1 页 专利 一种文本结构化的系统及方法 第 2 页 专利 一种文本结构化的系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。