全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210344022.4 (22)申请日 2022.03.31 (71)申请人 阿里云计算有限公司 地址 310000 浙江省杭州市西湖区转塘科 技经济区块12号 (72)发明人 毕岩  (74)专利代理 机构 北京思格 颂知识产权代理有 限公司 1 1635 专利代理师 杨超 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/28(2019.01) G06F 11/14(2006.01) (54)发明名称 一种数据湖数据处 理方法和系统 (57)摘要 本发明公开了一种数据湖数据处理方法和 系统。 该方法包括: 针对本次确认提交的数据, 解 析出业务快照信息并按业务快照的时间粒度进 行数据切分得到每个业务快照对应的数据版本 的增量数据; 根据业务快照信息和对应的数据版 本, 更新G ‑SCD表中的业务快照与数据版本的映 射关系, 并将每个业务快照对应的数据版本的增 量数据同步到数据湖进行存储。 接收到数据查询 请求后, 根据业务快照信息查询G ‑SCD表中业务 快照与数据版本的映射关系, 获取所查询的数据 版本的数据提供给查询用户。 该方法在数据存储 时不用存储每个版本的所有数据, 避免大量的数 据冗余, 在查询时可以获取每个版本对应的数 据, 无需进行新旧数据的合并处理, 提高查询效 率和速度。 权利要求书2页 说明书13页 附图2页 CN 115185955 A 2022.10.14 CN 115185955 A 1.一种数据湖数据处 理方法, 其特 征在于, 包括: 针对本次确 认提交的数据, 解析出业务快照信 息并按业务快照的时间粒度进行数据切 分得到每 个业务快照对应的数据版本的增量数据; 根据业务快照信息和对应的数据版本, 更新预先创建的G ‑SCD表中的业务快照与数据 版本的映射关系, 并将每个业务快照对应的数据版本的增 量数据同步到数据湖进行存储; 所述G‑SCD是指基于固定粒度的缓慢变化维。 2.如权利要求1所述的方法, 其特征在于, 所述针对本次确认提交的数据, 解析出业务 快照信息并按业务快照的时间粒度进行数据切分得到每个业务快照对应的数据版本的增 量数据, 包括: 流式计算引擎接收到分布式订 阅系统的数据确 认提交信 息后, 从数据提交信 息中解析 出提交时间信息, 并根据预先设置的业务快照的数据格式进 行处理后, 得到业务快照信息; 以及 流式计算引擎对本次确认提交 的数据按业务快照的时间粒度进行数据切分, 切分出不 同业务快照的数据, 得到每 个业务快照对应的数据版本以及该 数据版本的增量数据。 3.如权利要求1所述的方法, 其特征在于, 所述根据业务快照信息和对应的数据版本, 更新预先创建的G ‑SCD表中的业 务快照与数据版本的映射关系, 包括: 流式计算引擎根据解析出的业务快照信 息, 按照指定的业务快照格式更新预先创建的 G‑SCD表中的指 定位置的业务快照, 并获取业务快照对应的最新的数据版本, 将业务快照对 应的最新的数据版本更新到G ‑SCD表中。 4.如权利要求1所述的方法, 其特 征在于, 还 包括: 按照预设的回溯周期或基于数据回溯指令, 启动数据回溯修复流程: 将数据回滚到指 定的历史时刻, 检查数据正确性, 修复错 误的数据。 5.如权利要求1所述的方法, 其特 征在于, 还 包括: 按照预设的存储周期、 或基于存储指令, 启动存储点操作: 为需要永久保留的数据版本 添加存储点标记, 其中, 添加有存 储点标记的数据版本在清理历史数据时会被永久保留。 6.如权利要求1 ‑5任一所述的方法, 其特征在于, 更新预先创建的G ‑SCD表中的业务快 照与数据版本的映射关系之前, 还 包括: 创建G‑SCD表; 所述G‑SCD表中包括用于标识G ‑SCD表的表标识、 业务快照的粒度、 业务快照 字段、 业务 快照字段的数据格式、 业 务快照对应的数据版本 。 7.一种数据湖数据处 理方法, 其特 征在于, 包括: 接收到数据查询请求后, 从所述数据查询请求中解析 出包括的业 务快照信息; 根据所述业务快照信息, 查询G ‑SCD表中业务快照与数据 版本的映射关系, 确定所查询 的数据版本; 所述G ‑SCD是指基于固定粒度的缓慢变化维; 获取所查询的数据版本的数据提供 给查询用户。 8.如权利 要求7所述的方法, 其特征在于, 根据所述业务快照信息, 查询G ‑SCD表中业务 快照与数据版本的映射关系, 确定所查询的数据版本, 包括: 根据所述业务快照信息, 查询G ‑SCD表中的业务快照字段, 确定G ‑SCD表中数据格式和 内容相匹配的业 务快照, 根据业 务快照与数据版本的对应关系确定所查询的数据版本 。权 利 要 求 书 1/2 页 2 CN 115185955 A 29.如权利要求7所述的方法, 其特征在于, 获取所查询的数据版本的数据提供给查询用 户, 包括: 根据确定出的所查询的数据版本, 确定该数据版本涉及到的在先数据版本 中的老数据 部分和/或该数据版本的增 量数据部分, 分别获取所述老数据部分和增 量数据部分得到所 查询的数据版本的数据提供 给查询用户。 10.如权利要求7 ‑9任一所述的方法, 其特 征在于, 还 包括: 得到所查询的数据版本的数据提供 给查询用户之前, 在数据中添加业 务快照信息 。 11.一种数据处理系统, 其特征在于, 包括分布式订 阅系统、 流式计算引擎、 查询引擎和 数据湖; 所述分布式订阅系统, 用于将数据提交到流式计算引擎; 所述流式计算引擎用于执行权利要求1 ‑6任一所述的数据湖数据处理方法, 对确认提 交的数据进行处 理后同步到数据湖进行存 储; 查询引擎用于用于执行权利要求7 ‑10任一所述的数据湖数据处理方法, 根据接收到数 据查询请求, 从数据湖中获取 所查询的数据提供 给查询用户。 12.一种计算机存储介质, 其特征在于, 所述计算机存储介质中存储有计算机可执行指 令, 所述计算机可执行指 令被处理器执行时实现权利要求 1‑10任一所述的数据湖数据处理 方法。 13.一种数据处理设备, 其特征在于, 包括: 存储器、 处理器及存储于存储器上并可在处 理器上运行的计算机程序, 所述处理器执行所述程序时实现权利要求 1‑10任一所述的数据 湖数据处 理方法。权 利 要 求 书 2/2 页 3 CN 115185955 A 3

PDF文档 专利 一种数据湖数据处理方法和系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据湖数据处理方法和系统 第 1 页 专利 一种数据湖数据处理方法和系统 第 2 页 专利 一种数据湖数据处理方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:50:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。