全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210762056.5 (22)申请日 2022.06.30 (71)申请人 中国人民解 放军国防科技大 学 地址 410003 湖南省长 沙市开福区德雅路 109号 (72)发明人 戴超凡  (74)专利代理 机构 北京风雅颂专利代理有限公 司 11403 专利代理师 曾志鹏 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/26(2019.01) (54)发明名称 基于ETL的数据血缘分析展示方法、 装置以 及电子设备 (57)摘要 本发明提供一种基于ETL的数据血缘分析展 示方法、 装置以及电子设备, 方法包括: 实时获取 数据抽取转换任务的任务执行详情, 根据任务执 行详情获取包括数据源信息和数据流转信息的 数据血缘信息并存储至数据库中; 获取待分析的 任一表的信息, 根据表的信息从数据库中查找表 的数据血缘信息; 根据数据血缘信息应用图算法 以表为中心节点获取各节点的数据源信息和数 据流转信息; 根据数据源信息和数据流转信息绘 制表的血缘 关系图并进行展示, 血缘关系图至少 包括以表为中心节点的数据流入节点和数据流 出节点、 以及数据流通方向。 本发明通过埋点的 方式, 实时监控、 分析数据抽取转换任务的运行, 不影响数据抽取转换任务的正常运行, 稳定、 准 确、 全面、 可视化。 权利要求书2页 说明书6页 附图2页 CN 115145988 A 2022.10.04 CN 115145988 A 1.一种基于 ETL的数据血缘分析展示方法, 其特 征是, 所述方法包括: 实时获取数据抽取转换任务的任务执行详情, 根据 所述任务执行详情解析获取包括数 据源信息和数据流 转信息的数据血缘信息并存 储至数据库中; 获取待分析的任一表的信 息, 并根据 所述表的信 息从所述数据库中查找所述表的数据 血缘信息; 根据所述数据血缘信息应用图算法以所述表为中心节点获取各节点的所述数据源信 息和所述数据流 转信息; 根据各节点的所述数据源信息和所述数据流转信息绘制所述表的血缘关系图并进行 展示, 所述血缘关系图至少包括以所述表为中心节点的数据流入节点和数据流出节点、 以 及数据流 通方向。 2.如权利要求1所述的方法, 其特征是, 所述实时获取数据抽取转换任务的任务执行详 情, 包括: 实时监测ETL工具程序、 日志, 获取应用ETL工具执行的所述数据抽取转换任务的任务 执行状态; 获取所述数据抽取转换任务的唯一编码、 数据存 储位置; 根据所述唯一编码和所述数据存储位置查询数据库, 获取所述数据抽取转换任务的所 述任务执行详情, 所述任务执行详情包括: 数据库、 表、 字段的层级关系以及抽取、 转换、 加 载的数据操作信息 。 3.如权利要求2所述的方法, 其特征是, 所述根据 所述任务执行详情解析获取包括数据 源信息和数据转换信息的数据血缘信息并存 储至数据库中, 包括: 对所述任务执行详情进行全链路的解析汇总, 还原所述数据抽取转换任务从第 一个步 骤到最后一个步骤的完整配置链路, 获取包括所述数据源信息和所述数据流转信息的所述 数据血缘信息; 将获取的所述数据血缘信息存 储至所述数据库。 4.如权利要求3所述的方法, 其特征是, 所述数据源信 息包括: 数据库、 表、 字段、 文件的 层级关系, 所述数据流 转信息包括: 数据流 通方向、 数据流 通量、 数据操作类型。 5.如权利要求4所述的方法, 其特征是, 所述将 获取的所述数据 血缘信息存储至所述数 据库, 包括: 将所述数据源信息和所述数据流转信息按照所述数据操作类型和所述层级关系存储 至所述数据库中。 6.如权利要求1所述的方法, 其特征是, 所述根据 所述数据 血缘信息应用图算法以所述 表为中心 节点获取 各节点的所述数据源信息和所述数据流 转信息, 包括: 应用图算法 以所述表为中心节点应用图算法遍历搜索所述数据血缘信息中各节点的 所述数据源信息和所述数据流转信息, 所述图算法为广度优先算法或深度优先算法的其中 之一。 7.如权利要求1所述的方法, 其特征是, 所述根据 各节点的所述数据源信 息和所述数据 流转信息绘制所述表的血缘关系图并进行展示, 包括: 以所述表为中心节点, 所述中心节点的左侧为所述中心节点的数据流入节点, 右侧为 所述中心节点的数据流出节点, 两个节点之间的箭头为数据流通方向, 连线的信息显示的权 利 要 求 书 1/2 页 2 CN 115145988 A 2是数据的字段名称, 绘制所述表的血缘关系图; 对所述血缘关系图进行 可视化展示。 8.一种数据血缘分析展示装置, 其特 征是, 所述装置包括: 任务解析单元, 用于实时获取数据抽取转换任务的任务执行详情, 根据所述任务执行 详情解析获取包括数据源信息和数据流 转信息的数据血缘信息并存 储至数据库中; 血缘查找单元, 用于获取待分析的任一表的信息, 并根据所述表的信息从所述数据库 中查找所述表的数据血缘信息; 血缘获取单元, 用于根据所述数据 血缘信息应用图算法以所述表为中心节点获取各节 点的所述数据源信息和所述数据流 转信息; 绘图展示单元, 用于根据各节点的所述数据源信 息和所述数据流转信 息绘制所述表的 血缘关系图并进 行展示, 所述血缘关系图至少包括以所述表为中心节点的数据流入节点和 数据流出节点、 以及数据流 通方向。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征是, 所述处理器执行所述程序时实现如权利要求1 ‑7中任意一项所述的方 法。 10.一种计算机存储介质, 其特征是, 所述存储介质中存储有至少一可执行指令, 所述 可执行指令使处 理器执行如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115145988 A 3

PDF文档 专利 基于ETL的数据血缘分析展示方法、装置以及电子设备

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ETL的数据血缘分析展示方法、装置以及电子设备 第 1 页 专利 基于ETL的数据血缘分析展示方法、装置以及电子设备 第 2 页 专利 基于ETL的数据血缘分析展示方法、装置以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。