专利 一种文本结构化的系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210720007.5 (22)申请日 2022.06.23 (71)申请人中核核信信息技术（北京）有限公司地址 100091 北京市海淀区骚子营1号院申请人核工业计算机应用研究所 (72)发明人姜礼瑞　曾喻　马文君　张文军　 (74)专利代理机构核工业专利中心 1 1007 专利代理师孙成林 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 40/174(2020.01) G06F 40/18(2020.01) G06F 40/189(2020.01) (54)发明名称一种文本结构化的系统及方法 (57)摘要本发明属于计算机应用领域，具体涉及一种文本结构化的系统及方法。括信息提取模块、信息分析处理模块和结构化信息生成模块；包括如下步骤：步骤1：通过信息提取模块对文本信息进行提取；步骤2：通过信息分析处理模块对提取信息进行处理、存储；步骤3：通过结构化信息生成模块对处理后的信息进行结构化存储。本发明的有益效果在于：通过对非结构化的文本表格数据进行提取，并初始化配置文件，将提取信息存储至配置文件，按照顺序进行校验，通过结构化信息生成模块对提取信息进行格式化，得到结构化文本，从而实现对文本表格数据的结构化过程，有效提升文本使用效率。权利要求书1页说明书3页附图1页 CN 115168344 A 2022.10.11 CN 115168344 A 1.一种文本结构化的系统，其特征在于：包括信息提取模块、信息分析处理模块和结构化信息生成模块；所述的信息提取模块将所需要处理的非结构化文本表格信息进行提取，并对提取的信息进行分类，分别针对表格层级、内容及顺序进行提取，并写入对应层级的配置文件，配置文件按照名称确定提取顺序；所述的信息分析处理模块对信息提取模块所提取的信息进行分析处理，按照信息提取模块的分类配置文件进行存储；所述的结构化信息生成模块是对配置文件中的内容及关系数据进行格式化，重新生成符合要求的结构化数据文件，输出至数据库进行存储。 2.如权利要求1所述的一种文本结构化的系统，其特征在于：所述的信息提取模块按照提取结果分为多次提取，直至信息提取完成，每次提取的任务需求至少提取一个选中的目标表格信息进行提取，按照表格层级一次提取，将提取结果存储至配置文件中。 3.如权利要求1所述的一种文本结构化的系统，其特征在于：所述的信息分析处理模块还需要确定提取表格信息的数据字段与文档结果的关系，按照表格关系对数据字段进行校验，以确定数据关系的准确性，同时将该结果关系存储至配置文件中。 4.如权利要求1所述的一种文本结构化的系统，其特征在于：所述的信息分析处理模块最终将配置文件内的数据构造为所需的树结构； 1、根据数据内容，获取树结构中父节点与子节点的对应关系； 2、对每一条数据进行处理，获取这行数据父节点的信息； 3、根据这条数据的父节点信息，从所有数据中找到这一条父节点数据； 4、使用这条数据与找到的数据构造树形关系； 5、对所有数据执行上述步骤。 5.一种文本结构化的方法，其特征在于，包括如下步骤：步骤1：通过信息提取模块对文本信息进行提取；步骤2：通过信息分析处理模块对提取信息进行处理、存储；步骤3：通过结构化信息生成模块对处理后的信息进行结构化存储。 6.如权利要求5所述的一种文本结构化的方法，其特征在于：所述的步骤1中所述的文本信息包括 word文件及excel文件内的文本信息。 7.如权利要求5所述的一种文本结构化的方法，其特征在于：所述的步骤2中的提取信息进行处理包括：步骤21：当数据文件包涵合并单元格时，需要将多列表合并到一起；步骤22：同一数据多行的处理，对于同一条数据占据多行，将对文件的内容布局进行分析归类，将同一条数据合并成一行；步骤23：包涵多列的数据在一个单元格内的处理，按分隔符将表头及表内容分开，并计算表头、内容拆分成多列；步骤24：表头、内容未对齐处理，按照数据类型及布局信息对表头、内容进行对齐处理；步骤25：分页数据处理，按照分表处表格的线条信息及单元格是否封闭判断分页内容是否需要合并处理。权　利　要　求　书 1/1 页 2 CN 115168344 A 2一种文本结构化的系统及方法技术领域 [0001]本发明属于计算机应用领域，具体涉及一种文本结构化的系统及方法。背景技术 [0002]目前，信息技术不断发展，各行业都通过信息技术来不断提高效率和生产力，海量文本数据的积累，已经严重阻碍生产效率的提高，如何利用这些文本数据中的有用信息已经尤为迫切。而目前文本结构化框架没有包涵深度学习模型训练，很明显，这对于深度学习技术来进行文本结构化的方法带来了一定的困难，无法对海量文本数据进行快速处理，对生产效率带来了一定影响。发明内容 [0003]本发明的目的提供一种文本结构化的系统及方法，解决现有技术中目前的文本结构化框架中不包含对表格文本结构化学习模型及训练模块，没有办法解决表格信息文本结构化的问题。 [0004]本发明的技术方案如下：一种文本结构化的系统，包括信息提取模块、信息分析处理模块和结构化信息生成模块； [0005]所述的信息提取模块将所需要处理的非结构化文本表格信息进行提取，并对提取的信息进行分类，分别针对表格层级、内容及顺序进行提取，并写入对应层级的配置文件，配置文件按照名称确定提取顺序； [0006]所述的信息分析处理模块对信息提取模块所提取的信息进行分析处理，按照信息提取模块的分类配置文件进行存储，并对提取信息结果进行校验，确保提取表格信息内容的准确性； [0007]所述的结构化信息生成模块是对配置文件中的内容及关系数据进行格式化，重新生成符合要求的结构化数据文件，输出至数据库进行存储。 [0008]所述的信息提取模块按照提取结果分为多次提取，直至信息提取完成，每次提取的任务需求至少提取一个选中的目标表格信息进行提取，按照表格层级一次提取，将提取结果存储至配置文件中。 [0009]所述的信息分析处理模块还需要确定提取表格信息的数据字段与文档结果的关系，按照表格关系对数据字段进行校验，以确定数据关系的准确性，同时将该结果关系存储至配置文件中。 [0010]所述的信息分析处理模块最终将配置文件内的数据构造为所需的树结构； [0011]1、根据数据内容，获取树结构中父节点与子节点的对应关系； [0012]2、对每一条数据进行处理，获取这行数据父节点的信息； [0013]3、根据这条数据的父节点信息，从所有数据中找到这一条父节点数据； [0014]4、使用这条数据与找到的数据构造树形关系； [0015]5、对所有数据执行上述步骤。说　明　书 1/3 页 3 CN 115168344 A 3

专利 一种文本结构化的系统及方法

专利一种文本结构化的系统及方法