全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210800298.9 (22)申请日 2022.07.08 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 李泽江 雷立动 万小妹  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 马小青 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/22(2019.01) G06F 40/194(2020.01) (54)发明名称 一种修正ETL过程中异常分 隔符数据内容的 方法及装置 (57)摘要 本申请公开了一种修正ETL过程中异常分隔 符数据内容的方法及装置, 可应用于大数据领域 或金融领域。 本申请配置结构化数据文本的列信 息, 根据列分 隔符对结构化数据文本中的目标行 数据文本进行拆 分, 获取目标行数据文本拆分后 的列个数, 当目标行数据文本拆分后的列个数大 于配置列个数时, 获取目标行数据文本拆分后的 各列长度, 依次将各列长度和与其对应的配置长 度进行比较, 得到比较结果, 在比较结果异常时, 停止比较, 根据异常的比较结果, 将导致比较结 果异常的列和其后一列进行合并。 通过自动比对 数据内容与提前配置的信息, 自动合并ELT过程 中错误的拆分, 能够有效避免因为结构化数据文 本的内容本身 存在的分隔符而导 致的拆分错 误。 权利要求书3页 说明书11页 附图5页 CN 115168467 A 2022.10.11 CN 115168467 A 1.一种修 正ETL过程中异常 分隔符数据内容的方法, 其特 征在于, 包括: 配置结构化数据文本的列信息, 所述列信息包括所述结构化数据文本的配置列个数、 列分隔符、 各列的配置 长度; 根据所述列分隔符对所述结构化数据文本中的目标行数据文本进行拆分, 获取所述目 标行数据文本拆分后的列个数, 所述目标行数据文本为所述结构化数据文本中的任意一行 数据文本; 当所述目标行数据文本拆分后的列个数大于所述配置列个数时, 获取所述目标行数据 文本拆分后的各列长度; 依次将所述各列长度和与其对应的所述配置长度进行比较, 得到比较结果, 在所述比 较结果异常时, 停止比较; 根据异常的比较结果, 将导 致比较结果异常的列和其后一列进行合并。 2.根据权利要求1所述的方法, 其特征在于, 所述各列的配置长度包括: 各列配置最长 长度, 所述各列配置最长 长度为, 在一列中, 各 行的长度中最长的长度; 所述依次将所述各列长度和与其对应的所述配置 长度进行比较, 得到比较结果包括: 依次判断所述各列长度 是否大于与其对应的所述配置最长长度, 得到所述列长度 大于 与其对应的所述配置最长长度的比较结果, 或, 得到所述列长度不大于与其对应的所述配 置最长长度的比较结果; 所述比较结果异常包括: 所述列长度大于与其对应的所述配置最长 长度; 所述导致比较结果异常的列包括: 列长度 大于与其对应的所述配置最长长度的列的前 一列。 3.根据权利要求1所述的方法, 其特征在于, 所述各列的配置长度包括: 各列配置各行 长度; 所述依次将所述各列长度和与其对应的所述配置 长度进行比较, 得到比较结果包括: 依次判断所述各列长度和与其对应的配置目标行长度是否一致, 得到所述各列长度和 与其对应的目标行长度一致的比较结果, 或, 得到所述各列长度和与其对应的配置目标行 长度不一致的比较结果; 所述比较结果异常包括: 所述列长度和与其对应的配置目标 行长度不 一致; 所述导致比较结果异常的列包括: 列长度和与其对应的配置目标 行长度不 一致的列。 4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取合并后的列个数; 当所述合并后的列个数 大于所述配置列个数时, 获取合并后的各列长度; 依次将所述合并后的各列长度和与其对应的所述配置长度进行比较, 获取合并比较结 果, 在所述 合并比较结果异常时, 停止比较; 根据异常的合并比较结果, 将导致合并比较结果异常的列和其后一列进行合并, 直至 合并后的列个数不大于所述配置列个数。 5.根据权利要求4所述的方法, 其特征在于, 所述各列的配置长度包括: 各列配置最长 长度和各列配置各 行长度; 所述依次将所述各列长度和与其对应的所述配置 长度进行比较, 得到比较结果包括: 依次判断所述各列长度 是否大于与其对应的所述配置最长长度, 得到所述列长度 大于权 利 要 求 书 1/3 页 2 CN 115168467 A 2与其对应的所述配置最长长度的比较结果, 或, 得到所述列长度不大于与其对应的所述配 置最长长度的比较结果; 所述比较结果异常包括: 所述列长度大于与其对应的所述配置最长 长度; 所述导致比较结果异常的列包括: 列长度 大于与其对应的所述配置最长长度的列的前 一列; 所述依次将所述合并后的各列长度和与其对应的所述配置长度进行比较, 获取合并比 较结果包括: 依次判断所述合并后的各列长度和与其对应的配置目标行长度 是否一致, 获取所述合 并后的各列长度和与其对应的配置目标行长度一致的合并比较结果, 或, 得到所述合并后 的各列长度和与其对应的配置目标 行长度不 一致的合并比较结果; 所述合并比较结果异常包括: 所述合并后的各列长度和与其对应的配置目标行长度不 一致; 所述导致合并比较结果异常的列包括: 合并后的列长度和与其对应的配置目标行长度 不一致的列。 6.一种修 正ETL过程中异常 分隔符数据内容的装置, 其特 征在于, 包括: 配置模块, 用于配置结构化数据文本的列信息, 所述列信息包括所述结构化数据文本 的配置列个数、 列分隔符、 各列的配置 长度; 拆分获取模块, 用于根据所述列分隔符对所述结构化数据文本中的目标行数据文本进 行拆分, 获取所述 目标行数据文本拆分后的列个数, 所述 目标行数据文本为所述结构化数 据文本中的任意 一行数据文本; 列长度获取模块, 用于当所述目标行数据文本拆分后的列个数大于所述配置列个数 时, 获取所述目标 行数据文本拆分后的各列长度; 比较模块, 用于依次将所述各列长度和与其对应的所述配置长度进行比较, 得到比较 结果, 在所述比较结果异常时, 停止比较; 合并模块, 用于根据异常的比较结果, 将导 致比较结果异常的列和其后一列进行合并。 7.根据权利要求6所述的装置, 其特 征在于, 所述各列的配置长度包括: 各列配置最长长度, 所述各列配置最长长度为, 在一列中, 各行的长度中最长的长度; 所述比较模块包括: 最长长度比较模块, 用于依次判断所述各列长度 是否大于与其对应的所述配置最长长 度, 得到所述列长度大于与其对应的所述配置最长长度的比较结果, 或, 得到所述列长度不 大于与其对应的所述配置最长长度的比较结果, 所述比较结果异常包括, 所述列长度大于 与其对应的所述配置最长 长度; 所述合并模块包括: 最长长度合并模块, 用于根据异常的比较结果, 将列长度大于与其对应的所述配置最 长长度的列的前一列和该列进行合并。 8.根据权利要求6所述的装置, 其特 征在于, 所述各列的配置 长度包括: 各列配置各 行长度; 所述比较模块包括:权 利 要 求 书 2/3 页 3 CN 115168467 A 3

PDF文档 专利 一种修正ETL过程中异常分隔符数据内容的方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种修正ETL过程中异常分隔符数据内容的方法及装置 第 1 页 专利 一种修正ETL过程中异常分隔符数据内容的方法及装置 第 2 页 专利 一种修正ETL过程中异常分隔符数据内容的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。