全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210603047.1 (22)申请日 2022.05.30 (71)申请人 北京火山引擎科技有限公司 地址 100190 北京市海淀区紫金 数码园4号 楼13层13 09 (72)发明人 郭俊 张友军 徐祎 罗旋  (74)专利代理 机构 北京信远 达知识产权代理有 限公司 1 1304 专利代理师 冯柳伟 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 16/24(2019.01) (54)发明名称 一种基于数据湖的物化列创建方法以及数 据查询方法 (57)摘要 本申请公开了一种基于数据湖的物化列创 建方法以及数据查询方法, 在这些方法中, 可 以 先针对一个数据表创建至少一个物 化列, 以使这 些物化列用于存储那些与该数据表中普通列(例 如, 类似于 “people.age ”等高频子列)相关的数 据, 以便后续当用户触发了针对 该普通列的数据 查询请求时, 可以由该物化列代 替该普通列向该 用户反馈其所查询的数据, 如此能够有效地克服 在直接由该普通列向该用户反馈其所查询的数 据时所造成的不良影响(例如, 浪费IO资源、 增加 额外计算等), 从而能够有效地提高数据查询效 果, 进而能够有效地提高针对这些数据表的信息 处理效果。 权利要求书4页 说明书42页 附图10页 CN 114969044 A 2022.08.30 CN 114969044 A 1.一种基于数据湖的物化列创建方法, 其特 征在于, 所述方法包括: 获取第一用户触发的物化列创建请求; 其中, 所述物化列创建请求用于请求在第一数 据表中创建第一物化列; 所述物化列创建请求携带有所述第一物化列的物化表达式; 所述 物化表达式用于描述所述第一物化列 与所述第一数据表中目标列之间的数据关联关系; 按照所述物化列创建请求, 创建所述第一物化列; 其中, 所述第一物化列用于代替所述 目标列为携带有所述物化表达式的数据查询请求 提供数据。 2.根据权利要求1所述的方法, 其特征在于, 所述按照所述物化列创建请求, 创建所述 第一物化列, 包括: 根据所述物化列创建请求所携带的物化列描述信 息, 在数据存储空间中创建所述第 一 物化列, 以使 所述数据存储空间中存储有 所述第一物化列; 其中, 所述物化列描述信息包括 所述第一物化列的物化表达式。 3.根据权利要求2所述的方法, 其特征在于, 所述在数据存储空间中创建所述第 一物化 列, 包括: 在所述数据存 储空间中创建所述第一物化列的元 数据; 将所述第一物化列的物化表达式按照预设描述方式存 储至所述元 数据。 4.根据权利要求1 ‑3任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取物化列创建 设备描述信息; 根据所述物化列创建 设备描述信息, 确定待 使用创建 设备; 所述按照所述物化列创建请求, 创建所述第一物化列, 包括: 从所述物化列创建请求中确定第一创建任务; 将所述第一创建任务按照所述待使用创建设备的任务描述语言进行翻译, 得到第 二创 建任务; 其中, 所述第二创建任务用于实现创建所述第一物化列; 将所述第二创建任务发送给所述待使用创建设备, 以使所述待使用创建设备执行所述 第二创建任务。 5.根据权利要求 4所述的方法, 其特 征在于, 所述获取物化列创建 设备描述信息, 包括: 在确定所述物化列创建请求属于第 一请求类型时, 从预设映射关系中查询所述第 一请 求类型对应的任务执 行设备描述信息, 确定为所述物化列创建 设备描述信息; 或者, 所述获取物化列创建 设备描述信息, 包括: 在所述物化列创建请求携带有所述物化列创建设备描述信 息时, 从所述物化列创建请 求中提取 所述物化列创建 设备描述信息 。 6.一种基于数据湖的数据写入方法, 其特 征在于, 所述方法包括: 获取第二用户触发的第一数据写入请求; 其中, 所述第一数据写入请求用于请求向第 二数据表中写入数据; 所述第一数据写入请求携带有针对所述第二数据 表的数据列描述信 息; 在确定所述数据列描述信 息满足预设扩展条件, 而且确定所述第 二数据表中存在至少 一个第二物化列时, 根据所述至少一个第二物化列的物化表达式, 对所述第一数据写入请 求进行改写, 得到第二数据写入请求; 其中, 所述第二物化列是利用权利要求1 ‑5任一项所 述的基于数据湖的物化列创建方法进行创建的;权 利 要 求 书 1/4 页 2 CN 114969044 A 2按照所述第二数据写入请求, 对所述第二数据表进行 数据写入处 理。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述至少一个第 二物化列的物化 表达式, 对所述第一数据写入请求进行改写, 得到第二数据写入请求, 包括: 按照所述至少一个第 二物化列在所述第 二数据表中的位置排列顺序, 将所述至少一个 第二物化列的物化表达式依次写入所述第一数据写入请求, 得到第二数据写入请求。 8.根据权利要求6或7 所述的方法, 其特 征在于, 所述方法还 包括: 获取数据写入设备描述信息; 根据所述数据写入设备描述信息, 确定待 使用写入设备; 所述按照所述第二数据写入请求, 对所述第二数据表进行 数据写入处 理, 包括: 从所述第二数据写入请求中确定第一写入 任务; 将所述第一写入任务按照所述待使用写入设备的任务描述语言进行翻译, 得到第 二写 入任务; 其中, 所述第二写入 任务用于实现对所述第二数据表进行 数据写入处 理; 将所述第二写入任务发送给所述待使用写入设备, 以使所述待使用写入设备执行所述 第二写入 任务。 9.一种基于数据湖的数据查询方法, 其特 征在于, 所述方法包括: 获取第三用户触发的第一数据查询请求; 其中, 所述第一数据查询请求用于请求针对 第三数据表进行 数据查询; 在所述第三数据表中存在至少一个第 三物化列时, 利用所述至少一个第 三物化列的物 化列描述信息, 对所述第一数据查询请求进行改写处理, 得到第二数据查询请求; 其中, 所 述第三物化列是利用权利要求1 ‑5任一项所述的基于数据湖的物化列创建方法进行创建 的; 按照所述第二数据查询请求, 对所述第三数据表进行 数据查询处 理。 10.根据权利要求9所述的方法, 其特征在于, 所述第一数据查询请求包括数据查询对 象描述信息; 所述物化列描述信息包括物化表达式和物化列标识; 所述利用所述至少一个第 三物化列的物化列描述信 息, 对所述第 一数据查询请求进行 改写处理, 得到第二数据查询请求, 包括: 在确定所述至少一个第三物化列中至少一个待使用物化列的物化表达式与所述数据 查询对象描述信息中至少一处待使用内容匹配时, 利用至少一个待使用物化列的物化列标 识, 对所述第一数据查询请求进行改写, 得到第二数据查询请求。 11.根据权利要求10所述的方法, 其特征在于, 所述利用至少一个待使用物化列的物化 列标识, 对所述第一数据查询请求进行改写, 得到第二数据查询请求, 包括: 利用各所述待使用物化列的物化列标识, 替换所述第 一数据查询 请求中与 各所述待使 用物化列的物化表达式相匹配的待 使用内容, 得到第二数据查询请求。 12.根据权利要求10所述的方法, 其特征在于, 所述第 一数据查询 请求携带有存储空间 查询范围描述信息; 所述方法还 包括: 根据所述存储空间查询范围描述信 息, 确定所述第 三数据表的至少一个候选物化列集 合; 根据所述至少一个候选物化列集 合之间的交集, 确定 至少一个交集物化列;权 利 要 求 书 2/4 页 3 CN 114969044 A 3

PDF文档 专利 一种基于数据湖的物化列创建方法以及数据查询方法

文档预览
中文文档 57 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共57页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据湖的物化列创建方法以及数据查询方法 第 1 页 专利 一种基于数据湖的物化列创建方法以及数据查询方法 第 2 页 专利 一种基于数据湖的物化列创建方法以及数据查询方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。