全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211007173.7 (22)申请日 2022.08.22 (71)申请人 迪爱斯信息技 术股份有限公司 地址 200233 上海市徐汇区钦江路3 33号41 幢三层 (72)发明人 王聚全 杜渂 刘亮亮 何之栋  梁铮 邱祥平 雷霆 索涛  刘冉东 杨博 刘琦  (74)专利代理 机构 上海硕力知识产权代理事务 所(普通合伙) 31251 专利代理师 杨华廷 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/215(2019.01) G06F 16/182(2019.01)G06F 16/28(2019.01) H04L 47/50(2022.01) (54)发明名称 基于数据湖的数据处理方法与装置、 可读存 储介质 (57)摘要 本发明公开了一种基于数据湖的数据处理 方法与装置、 可读存储介质, 所述方法包括通过 Kafka消息队列技术将外部 数据实时导入数据湖 中, 所述外部数据包括结构化数据、 非结构化数 据和半结构化数据; 对导入数据湖的外部数据进 行多级分层处理, 并分层存储相应的处理结果。 本发明可 以实时获取外部数据, 实时性好; 采用 数据湖实现数据集中式管理, 通过对原始数据的 分层处理, 提取出业务所需要的元数据, 提高了 数据的应用价值; 采用分布式文件系统存储数 据, 兼容性好; 采用Flink计算引擎, 对批处理与 流式处理统一处理逻辑, 避免资源浪费, 提高了 数据实时处 理性能。 权利要求书2页 说明书7页 附图2页 CN 115357654 A 2022.11.18 CN 115357654 A 1.一种基于数据湖的数据处 理方法, 其特 征在于, 包括: 通过Kafka消息队列技术将外部数据实时导入数据湖中, 所述外部数据包括结构化数 据、 非结构化数据和半结构化数据; 对导入数据湖的外 部数据进行多 级分层处 理, 并分层存 储相应的处 理结果。 2.根据权利要求1所述的基于数据湖的数据处理方法, 其特征在于, 所述对存入数据湖 的外部数据进行多 级分层处 理, 并分层存 储相应的处 理结果包括: 所述数据湖包括贴源层、 标准资源层、 主题 汇总层和应用层; 对外部数据进行原样抽取, 将抽取的原 始数据存 储在所述贴源层中; 根据所述贴源层的数据, 提取出业务所需的各种要素, 将得到的要素存储在所述标准 资源层中; 对所述标准资源层的数据进行降维汇总处 理, 将处理结果存 入所述主题 汇总层中; 基于业务需要从所述主题汇总层中提取数据, 并通过标准接口进行封装, 将封装后的 数据存于所述应用层中; 所述贴源层、 标准资源层、 主题 汇总层和应用层为上层应用提供 数据支撑 。 3.根据权利要求2所述的基于数据湖的数据处理方法, 其特征在于, 所述的根据 所述贴 源层的数据, 提取 出业务所需的各种要素, 将得到的要素存 储在所述标准资源层中, 包括: 采用Flink计算引擎对所述贴源层的数据进行处理, 提取出业务所需的各种要素以及 要素之间的关联信息; 采用Iceberg技 术将所述要素以及要素之间的关联信息存 入所述标准资源层中。 4.根据权利要求3所述的基于数据湖的数据处理方法, 其特征在于, 所述的对所述标准 资源层的数据进行降维汇总处 理, 将处理结果存 入所述主题 汇总层中包括: 采用Flink计算引擎对所有 要素按预设主题进行组织; 采用Iceberg技 术将每个主题的组织结果存 储在所述主题 汇总层中。 5.根据权利要求 4所述的基于数据湖的数据处 理方法, 其特 征在于, 所述预设主题包括人员、 场所、 物品、 案件、 事 件、 信息。 6.根据权利要求 4所述的基于数据湖的数据处 理方法, 其特 征在于, 每个主题包括主题描述、 主题对象、 主题对象关系 、 主题对象扩展规则; 所述主题描述用于对主题对象分类、 主题对象描述维度、 主题对象描述属性进行阐 述; 所述主题对象用于对人员主题、 场所主题、 物品主题、 案件主题、 事件主题、 信息主题、 组织主题的刻画维度以及 刻画属性进行描述; 所述主题对象关系定义了主题对象间的关系 、 关系分类及关系代码; 所述主题对象扩展规则阐述了主题对象分类、 描述维度、 描述属性及关系分类的扩展 原则。 7.一种基于数据湖的数据处 理装置, 其特 征在于, 包括: 数据源接入模块, 用于通过Kafka消息队列技术将外部数据实时导入数据湖中, 所述外 部数据包括结构化数据、 非结构化数据和半结构化数据; 数据湖存储模块, 用于对导入数据湖的外部数据进行多级分层处理, 并分层存储相应 的处理结果。 8.根据权利要求7所述的基于数据湖的数据处理装置, 其特征在于, 所述数据湖存储模权 利 要 求 书 1/2 页 2 CN 115357654 A 2块包括: 贴源层, 用于对外 部数据进行原样抽取, 将抽取的原 始数据存 储在所述贴源层中; 标准资源层, 用于根据 所述贴源层的数据, 提取出业务所需的各种 要素, 将得到的要素 存储在所述标准资源层中; 主题汇总层, 用于对所述标准资源层的数据进行降维汇总处理, 将处理结果存入所述 主题汇总层中; 应用层, 用于基于业务需要从所述主题汇总层中提取数据, 并通过标准接口进行封装, 将封装后的数据存于所述应用层中; 所述贴源层、 标准资源层、 主题 汇总层和应用层为上层应用提供 数据支撑 。 9.根据权利要求8所述的基于数据湖的数据处 理装置, 其特 征在于, 所述标准资源层, 还用于采用Flink计算引擎对所述贴源层的数据进行处理, 提取出业 务所需的各种要素以及要素之间的关联信息; 采用Iceberg技术将所述要素以及要素之间 的关联信息存 入所述标准资源层中。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求1至 6中任一项所述的基于数据湖的数据处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 115357654 A 3

PDF文档 专利 基于数据湖的数据处理方法与装置、可读存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于数据湖的数据处理方法与装置、可读存储介质 第 1 页 专利 基于数据湖的数据处理方法与装置、可读存储介质 第 2 页 专利 基于数据湖的数据处理方法与装置、可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。