全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210609515.6 (22)申请日 2022.05.31 (71)申请人 北京火山引擎科技有限公司 地址 100190 北京市海淀区紫金 数码园4号 楼13层13 09 (72)发明人 张一鹏 杨诗旻 郭俊 罗旋  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 储倩 (51)Int.Cl. G06F 16/16(2019.01) G06F 16/172(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 16/242(2019.01) (54)发明名称 一种基于数据湖的数据处 理方法及装置 (57)摘要 本申请公开了一种基于数据湖的数据处理 方法, 包括: 接收数据读取请求, 读取至少一个初 始数据湖文件。 而后, 基于至少一个初始数据湖 文件的主key对至少一个初始数据湖文件进行整 合, 得到多个整合数据湖文件。 在对至少一个初 始数据湖文件进行整合时, 存在相同的主key的 多个初始数据湖文件被整合成一个整合数据湖 文件。 而后, 基于多个整合数据湖文件, 得到符合 数据读取请求的目标文件。 由此可见, 本方案在 数据读取阶段, 基于数据湖文件的主key, 将key 相同的数据湖文件整合成一个整合数据湖文件。 采用这种方式, 无需引入计算引擎, 因此, 无需维 护数据的状态和设置数据的生命周期。 权利要求书2页 说明书9页 附图2页 CN 114968938 A 2022.08.30 CN 114968938 A 1.一种基于数据湖的数据处 理方法, 其特 征在于, 所述方法包括: 接收数据读取请求, 读取至少一个初始数据湖文件; 基于所述至少一个初始数据湖文件的主键key对所述至少一个初始数据湖文件进行整 合, 得到多个整合数据湖文件, 其中: 存在相同的主key的多个初始数据湖文件被整合成一 个整合数据湖文件; 基于所述多个整合数据湖文件, 得到符合所述数据读取请求的目标文件。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述多个整合数据湖文件, 得到 符合所述数据读取请求的目标文件, 包括: 获取多个 基础文件; 利用所述多个整合数据湖文件, 对所述多个基础文件进行更新, 得到至少一个所述基 础文件对应的更新文件; 从所述更新文件中确定符合所述数据读取请求的目标文件。 3.根据权利要求2所述的方法, 其特征在于, 所述多个基础文件包括第一基础文件, 利 用所述多个整合数据湖文件, 对所述第一基础文件进行更新, 得到所述第一基础文件对应 的更新文件, 包括: 从所述多个整合数据湖文件中、 获取与所述第一基础文件中的第一记录具备相同主 key的第二记录; 利用所述第二记录对所述第一记录进行更新, 得到更新后的第一记录, 所述第一基础 文件对应的更新文件, 包括所述更新后的所述第一记录 。 4.根据权利要求2所述的方法, 其特 征在于, 所述基础文件通过如下 方式得到: 读取至少一个历史数据湖文件; 对所述至少一个历史数据湖文件进行整合, 得到多个基础文件, 其中: 存在相同的主 key的多个历史数据湖文件被整合成一个 基础文件。 5.根据权利要求1所述的方法, 其特征在于, 所述至少一个初始数据湖文件中包括第 一 初始数据湖文件和 第二初始数据湖文件, 所述第一初始数据湖文件和所述第二初始数据湖 文件, 通过如下 方式写入: 在一定时间段内接收第 一数据写入请求和第 二数据写入请求, 所述第 一数据写入请求 用于请求写入第一流数据, 所述第二数据写入请求用于请求写入第二流数据, 所述第一流 数据和所述第二 流数据存在相同的主key; 确定所述第一 流数据和所述第二 流数据不包括相同的、 除主key 之外的属性; 将所述第一流数据写入到所述第 一初始数据湖文件中, 并将所述第 二流数据写入到所 述第二初始数据湖文件中。 6.根据权利要求1所述的方法, 其特征在于, 所述至少一个初始数据湖文件中包括第 三 初始数据湖文件, 所述第三初始数据湖文件, 通过如下 方式写入: 在一定时间段内接收第 三数据写入请求和第四数据写入请求, 所述第 三数据写入请求 用于请求写入第三流数据, 所述第四数据写入请求用于请求写入第四流数据, 接 收所述第 三数据写入请求的时刻早于接收所述第四数据写入请求的时刻, 所述第三流数据和所述第 四流数据存在相同的主key; 确定所述第三 流数据和第四流数据包括相同的、 除主key 之外的属性;权 利 要 求 书 1/2 页 2 CN 114968938 A 2将所述第三 流数据写入到所述第三初始数据湖文件中, 并拒绝写入所述第四流数据。 7.一种基于数据湖的数据处 理装置, 其特 征在于, 所述装置包括: 接收单元, 用于接收数据读取请求, 读取至少一个初始数据湖文件; 整合单元, 用于基于所述至少一个初始数据湖文件的主键key对所述至少一个初始数 据湖文件进行整合, 得到多个整合数据湖文件, 其中: 存在相同的主key 的多个初始数据湖 文件被整合成一个整合数据湖文件; 确定单元, 用于基于所述多个整合数据湖文件, 得到符合所述数据读取请求的目标文 件。 8.根据权利要求7 所述的装置, 其特 征在于, 所述确定单 元, 用于: 获取多个 基础文件; 利用所述多个整合数据湖文件, 对所述多个基础文件进行更新, 得到至少一个所述基 础文件对应的更新文件; 从所述更新文件中确定符合所述数据读取请求的目标文件。 9.一种设备, 其特 征在于, 所述设备包括处 理器和存 储器; 所述处理器用于执行所述存储器 中存储的指令, 以使得所述设备执行如权利要求1至6 中任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 包括指令, 所述指令指示设备执行如权利 要求1至6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114968938 A 3

PDF文档 专利 一种基于数据湖的数据处理方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据湖的数据处理方法及装置 第 1 页 专利 一种基于数据湖的数据处理方法及装置 第 2 页 专利 一种基于数据湖的数据处理方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。