全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210750771.7 (22)申请日 2022.06.29 (71)申请人 徐工汉云技 术股份有限公司 地址 221001 江苏省徐州市徐州经济技 术 开发区科技路6号 (72)发明人 廉凯 郭辉  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 董建林 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/23(2019.01) G06F 16/28(2019.01) (54)发明名称 一种流批一体的数仓集成方法及系统 (57)摘要 本发明公开了一种流批一体的数仓集成方 法及系统, 包括: 通过Flink  CDC将业务数据库中 的业务数据实时同步到消息队列中; 通过Flink   SQL对消息队列中的业务数据进行打宽处理; 根 据实时数仓的链路, 从ODS ‑>DWD‑>DWS‑>OLAP进 行实时数仓的分层设计, 通过Flink  SQL将业务 数据存储至实时数仓每一层对应的Kafka中; 通 过Flink SQL将实时数仓中每一层的明细数据按 照实时数仓的分层设计同步至离线数仓中, 得到 实时、 离线一体的数仓。 本发明基于FlinkSql在 一套链路上实现实时、 离线数仓建设, 保证数据 一致性、 流批计算结果的一致性, 降低了数仓运 行成本。 权利要求书2页 说明书5页 附图2页 CN 115114266 A 2022.09.27 CN 115114266 A 1.一种流批一体的数仓集成方法, 其特 征在于, 包括如下步骤: 通过Flink CDC将业务数据库中的业 务数据实时同步到消息队列中; 通过Flink SQL对消息队列中的业 务数据进行打宽处 理; 根据实时数仓的链路, 从  ODS‑>DWD‑>DWS‑>OLAP进行实时数仓的分层设计; 根据分层 结果, 通过Flink  SQL将业务数据 转化为实时数仓每一层的明细 数据, 并存储 至实时数仓每一层对应的Kafka 中; 通过Flink  SQL将实时数仓中每一层的明细 数据按照实时数仓的分层设计同步至离线 数仓中, 得到实时、 离线一体的数仓 。 2.根据权利要求1所述的一种流批一体的数仓集成方法, 其特征在于, 所述方法还包 括: 当实时数仓口径调 整或实时任务计算错误 时, 根据离线数仓 中的明细数据对实时数仓 进行数据修正。 3.根据权利要求2所述的一种流批一体的数仓集成方法, 其特征在于, 数据修正的方法 如下: 利用离线数仓中的明细数据搭建一条 备用链路; 当实时数仓口径调整或实时任务计算错误时, 在备用链路上进行数据回溯, 重新计算 历史数据; 对备用链路的回溯结果进行验证, 验证成功后, 利用离线数仓和备用链路更新实时数 仓。 4.根据权利要求1所述的一种流批一体的数仓集成方法, 其特征在于, 在实时数仓中, 数据服务层OLAP采用Aapc he Doris数据库架构。 5.根据权利要求1所述的一种流批一体的数仓集成方法, 其特征在于, 所述方法还包括 作业异常诊断机制, 所述作业异常诊断机制包括异常指标数据收集环节和人工排查经验累 计环节。 6.根据权利要求5所述的一种流批一体的数仓集成方法, 其特征在于, 所述异常指标数 据收集环 节的具体操作如下: 通过 Flink Reporter  上报 SQL 作业的运行指标和运行日志, 并持久化到  ES 中用 于历史查询; 实时监控  SQL 作业上报的  Kafka Offset 指标, 当消费的  Offset 落后于生产的   Offset 时, 判定为作业发生消费积压, 生成报警信号并下发异常事 件。 7.根据权利要求1所述的一种流批一体的数仓集成方法, 其特征在于, 所述方法还包括 异常保障机制, 异常保障机制包括watermark水位线机制和Checkpoint快照机制; 当实时数 仓在计算实时任务异常退出时, 通过Checkpoint快照机制还原计算进度, 基于异常退出前 的计算结果继续计算实时任务。 8.一种基于权利要求1~7任一项所述的数仓集成方法的数仓集成系统, 其特征在于, 包 括: 数据接入模块, 用于通过Flink  CDC将业务数据库中的业务数据实时同步到消息队列 中; 数据打宽模块, 用于通过 Flink SQL对消息队列中的业 务数据进行打宽处 理;权 利 要 求 书 1/2 页 2 CN 115114266 A 2实时数仓构建模块, 用于根据实时数仓的链路, 从  ODS‑>DWD‑>DWS‑>OLAP进行实时数 仓的分层设计; 根据分层结果, 通过Flink  SQL将业务数据转化为实时数仓每一层的明细数 据, 并存储至实时数仓每一层对应的Kafka 中; 离线数仓构建模块, 用于通过Flink  SQL将实时数仓中每一层的明细数据按照实时数 仓的分层设计同步至 离线数仓中; 数据修正模块, 用于当实时数仓口径调整或实时任务计算错误时, 根据离线数仓中的 明细数据对实时数仓进行 数据修正。 9.根据权利要求8所述的一种流批一体的数仓集成系统, 其特征在于, 所述系统还包括 作业异常诊断模块, 所述作业异常诊断模块包括异常指标数据收集模块和人工排查经验累 计模块; 其中, 异常指标 数据收集模块的操作如下: 通过 Flink Reporter  上报 SQL 作业的运行指标和运行日志, 并持久化到  ES 中用 于历史查询; 实时监控  SQL 作业上报的  Kafka Offset 指标, 当消费的  Offset 落后于生产的   Offset 时, 判定为作业发生消费积压, 生成报警信号并下发异常事 件。 10.根据权利要求8所述的一种流批一体的数仓集成系统, 其特征在于, 所述系统还包 括异常保障模块, 所述异常保障模块通过watermark水位线机制和Checkpoint快照机制对 实时数仓的数据接入、 数据存 储和实时任务计算进行异常保障。权 利 要 求 书 2/2 页 3 CN 115114266 A 3

PDF文档 专利 一种流批一体的数仓集成方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种流批一体的数仓集成方法及系统 第 1 页 专利 一种流批一体的数仓集成方法及系统 第 2 页 专利 一种流批一体的数仓集成方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。