全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210551327.2 (22)申请日 2022.05.18 (71)申请人 交通运输通信 信息集团有限公司 地址 100094 北京市海淀区上庄乡中国交 通通信信息中心卫星地 面站 (72)发明人 孙腾达 杨蕾 朱博麟 马慧娟  曾仕豪  (74)专利代理 机构 北京安度修典专利代理事务 所(特殊普通 合伙) 11424 专利代理师 杨方成 马欢萍 (51)Int.Cl. G06F 16/27(2019.01) G06F 16/23(2019.01) G06F 16/22(2019.01) (54)发明名称 业务数据抽取方法及系统 (57)摘要 本发明公开了一种业务数据抽取方法及系 统, 涉及数据处理技术领域。 该方法包括: 建立数 据仓库, 数据仓库包括实时库、 历史库、 今天库和 修复历史库; 将业务数据从生产数据库中抽取出 来, 存放在镜像数据库中; 将镜像数据库中的待 统计业务数据抽取到实时库中, 对抽取到实时库 中的业务数据进行多维加工和聚合处理, 得到聚 合数据并同步到历史库中; 今天库和修复历史库 根据预设更新规则将聚合数据同步至历史库中。 本发明可以降低数据统计和数据采集的耦合行, 分担系统压力, 提升应用系统的稳定性, 并且提 升数据统计范围较大场景中的统计时效性, 此 外, 当数据部分关键信息变更时, 建立校验机制, 可以提升数据统计结果的准确性。 权利要求书2页 说明书10页 附图4页 CN 114969204 A 2022.08.30 CN 114969204 A 1.一种业 务数据抽取 方法, 其特 征在于, 包括: 建立数据仓库, 所述数据仓库包括实时库、 历史库、 今天库和修复历史库, 其中, 所述实 时库用于存储全部聚合数据, 所述历史库用于存储除目标天外的聚合数据, 所述今天库用 于对目标天产生的全量聚合数据进行更新, 所述修复历史库用于对预设天数间隔内的全量 聚合数据进行 更新; 将业务数据从所述 生产数据库中抽取 出来, 存放在镜像数据库中; 将所述镜像数据库中的待统计业务数据抽取到所述实时库中, 对抽取到所述实时库中 的业务数据进行多维加工和聚合处 理, 得到聚合数据并同步到所述历史库中; 所述今天库和所述修复历史库根据预设更新规则将所述聚合数据同步至所述历史库 中。 2.根据权利要求1所述的业务数据抽取方法, 其特征在于, 将所述镜像数据库中的待统 计业务数据抽取到所述实时库中, 对抽取到所述 实时库中的业务数据进 行多维加工和聚合 处理, 得到聚合数据并同步到所述历史库中, 具体包括: 判断所述实时库是否具有时间戳表; 当所述实时库具有所述时间戳表时, 判断所述实时库是否具有jobname表, 所述 jobname表用于记录运行 结束的作业; 当所述实时库具有所述jobname表时, 删除所述jobname表中的数据; 将所述时间戳表中的时间戳作为变量传递到SQL语句中, 按照时间戳的方式从所述镜 像数据库中抽取业务数据, 将所述业务数据聚合后输入到作业流中, 对作业流中的数据进 行转换加工和数据加载, 并同步到所述历史库中。 3.根据权利要求2所述的业务数据抽取方法, 其特征在于, 对作业流中的数据进行转换 加工和数据加载, 具体包括: 选择需要输出的输出字段; 按照预设字段值对所述作业 流中的数据进行排序, 得到顺序字段; 将所述输出字段与 所述顺序字段建立映射关系, 根据预设的关键字段判断所述顺序字 段中需要更新的字段和/或需要插 入的字段; 根据所述需要更新的字段对所述实时库中的目标表进行数据更新, 和/或根据所述需 要插入的字段对所述实时库中的目标表进行 数据插入。 4.根据权利要求3所述的业 务数据抽取 方法, 其特 征在于, 还 包括: 将运行结束的作业名存入所述jobn ame表中, 根据所述jobname表的行数判断是否全部 作业运行结束, 当全部作业运行结束或超过预设的时间阈值时, 更新所述时间戳表中的时 间戳。 5.根据权利要求2至4中任一项所述的业 务数据抽取 方法, 其特 征在于, 还 包括: 当所述实时库没有所述时间戳表时, 创建时间戳表并初始化 一个时间戳; 当所述实时库没有所述jobname表时, 创建jobname表。 6.一种业务数据抽取系统, 其特征在于, 包括: 建库 单元、 抽取单元、 聚合单元和更新单 元, 其中: 所述建库单元用于建立数据仓库, 所述数据仓库包括实时库、 历史库、 今天库和修复历 史库, 其中, 所述 实时库用于存储全部聚合数据, 所述历史库用于存储除目标天外的聚合数权 利 要 求 书 1/2 页 2 CN 114969204 A 2据, 所述今天库用于对目标天产生的全量聚合数据进行更新, 所述修复历史库用于对预设 天数间隔内的全量聚合数据进行 更新; 所述抽取 单元用于将业 务数据从所述 生产数据库中抽取 出来, 存放在镜像数据库中; 所述聚合单元用于将所述镜像数据库中的待统计业务数据抽取到所述实时库中, 对抽 取到所述 实时库中的业务数据进 行多维加工和聚合处理, 得到聚合数据并同步到所述历史 库中; 所述更新单元用于控制所述今天库和所述修复历史库根据预设更新规则将所述聚合 数据同步至所述历史库中。 7.根据权利要求6所述的业务数据抽取系统, 其特征在于, 所述 聚合单元具体用于判断 所述实时库是否具有时间戳表; 当所述实时库具有所述时间戳表 时, 判断所述实时库是否 具有jobname表, 所述jobname表用于记录运行结束的作业; 当所述实时库具有所述jobname 表时, 删除所述jobname表 中的数据; 将所述时间戳表 中的时间戳作为变量传递到SQL语句 中, 按照时间戳的方式从所述镜像数据库中抽取业务数据, 将所述业务数据聚合后输入到 作业流中, 对作业 流中的数据进行转换加工和数据加载, 并同步到所述历史库中。 8.根据权利要求7所述的业务数据抽取系统, 其特征在于, 所述 聚合单元具体用于选择 需要输出的输出字段; 按照预设字段值对所述作业流中的数据进 行排序, 得到顺序字段; 将 所述输出字段与所述顺序字段建立映射关系, 根据预设的关键字段判断所述顺序字段中需 要更新的字段和/或需要插入的字段; 根据所述需要更新的字段对所述实时库中的目标表 进行数据更新, 和/或根据所述需要插 入的字段对所述实时库中的目标表进行 数据插入。 9.根据权利要求8所述的业务数据抽取系统, 其特征在于, 所述 聚合单元还用于将运行 结束的作业名存入 所述jobname表中, 根据所述jobname表的行数判断是否全部作业运行结 束, 当全部作业 运行结束或超过 预设的时间阈值时, 更新所述时间戳表中的时间戳。 10.根据权利要求7至9中任一项所述的业务数据抽取系统, 其特征在于, 所述 聚合单元 还用于当所述实时库没有所述时间戳表 时, 创建时间戳表并初始化一个时间戳; 当所述实 时库没有所述jobname表时, 创建jobname表。权 利 要 求 书 2/2 页 3 CN 114969204 A 3

PDF文档 专利 业务数据抽取方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 业务数据抽取方法及系统 第 1 页 专利 业务数据抽取方法及系统 第 2 页 专利 业务数据抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。