全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210846162.1 (22)申请日 2022.07.04 (71)申请人 广东电力通信科技有限公司 地址 510080 广东省广州市越秀区东 风东 路836号1座3201- 3206室 (72)发明人 杨志花 吴振田 罗崇立  (74)专利代理 机构 南京禹为知识产权代理事务 所(特殊普通 合伙) 32272 专利代理师 褚晓英 (51)Int.Cl. G06F 16/25(2019.01) G06F 9/48(2006.01) G06F 16/27(2019.01) (54)发明名称 一种基于调度中心的ETL系统 (57)摘要 本发明公开了一种基于调度中心的ETL系 统, 涉及数据调度处理技术领域, 包括ET L数据调 度系统, 所述ET L数据调度系统包括有调度中心、 流程调度系统、 任务调度系统和服务调度系统, 所述流程调度系统结合希尔排序的EDF调度算法 使用, 所述任务调度系统由高优 先级任务调度处 理系统和时序任务调度处理系统构成, 所述服务 调度系统由新类型服务数据接收系统、 新类型服 务注册系统、 服务标识校验系统和数据服务请求 注销系统构成。 本发明通过将ETL过程任务流程 化, 建立统一调度中心进行多流程实例控制, 再 对整个ETL中的流程调度、 任务调度以及服务调 度, 以多通道服务的方式动态提供业务服务, 以 达到整个ET L的同步速率提升以及业务稳定性保 证的目的。 权利要求书1页 说明书6页 附图2页 CN 115357651 A 2022.11.18 CN 115357651 A 1.一种基于调度中心的ETL系统, 包括ETL数据调度系统, 其特征在于: 所述ETL数据调 度系统包括有调 度中心、 流程调度系统、 任务调度系统和服务调 度系统, 所述流程调度系统 结合希尔排序的EDF调度算法使用, 所述任务调度系统由高优先级任务调度处理系统和时 序任务调度 处理系统构成, 所述服务调度系统由新类型服务数据接 收系统、 新类型服务注 册系统、 服 务标识校验系统和数据服 务请求注销系统构成。 2.根据权利要求1所述的一种基于调度中心的ETL系统, 其特征在于: 所述流程调度系 统在EDF调度算法 的基础上, 综合考虑任务截止时间、 执行价值、 消耗时间三种因素确定任 务优先级, 通过希尔排序算法对 任务进行优化选择。 3.根据权利要求1所述的一种基于调度中心的ETL系统, 其特征在于: 所述任务调度系 统将ETL中的一个数据同步流程进 行原子任务化后并按优先级以及到达时间进 行精确化调 度, 将一个数据同步流程进行原子化拆分, 根据业务处理逻辑拆分细化为多个处理任务记 为EA。 4.根据权利要求3所述的一种基于调度中心的ETL系统, 其特征在于: 所述EA为一个基 本任务, 所述一个基本任务包括3个子元素, EA={ID,I,O}, ID用于标识器所在ETL工作流程 中的位置, I表示输入记录集, O表示输出记录集, 记录为EA(ID,I)=O, 基本任务EAn+1的输 入集是任务EAn的输出集, EAn+1从EAn收集数据进行 下一步处理。 5.根据权利要求1所述的一种基于调度中心的ETL系统, 其特征在于: 所述任务调度系 统完成流程初始定义, 调度中心记录任务的活动规则R和执行优先等级F, 在同步流程启动 或任务执行完成后, 调度中心根据 活动规则生成任务EA并放入代办任务池中, 调度优先级 权衡任务到达顺序以及 任务的优先等级, 任务的先后执行, 除考虑达到顺序, 还需根据任务 的优先等级加权重进行计算, 按任务的优先级和到达时间进行任务调度, 优先处理优先级 高的任务, 再处 理先到达的任务。 6.根据权利要求1所述的一种基于调度中心的ETL系统, 其特征在于: 所述服务调度系 统完成数据的处理后, 调用中心的注册清楚服务, 推送数据类型以及版本, 调度中心获取注 册请求, 在数据路由表中注册 新的数据类型服务, 服务类型状态为新鲜, 新类型服务完成注 册, 调度中心将其 他同数据类型的服 务标识过期。 7.根据权利要求6所述的一种基于调度中心的ETL系统, 其特征在于: 所述调度中心接 收外部应用请求, 通过相关校验, 调度中心在数据路 由表中检查出FRESH状态的服务, 为本 次访问生成一张票据 注册在服务下, 票据有效期为 10分钟, 完成注册后, 调度中心返回服务 路径以及票据信息给到外部应用, 外部应用根据票据以及服务路径进行数据请求访问, 调 度中心定期检查数据路由表, 若服务标识 为STALE状态的服务中所有票据都已经过期, 判断 服务没有新的请求, 该服 务将释放资源并在数据路由表中注销。权 利 要 求 书 1/1 页 2 CN 115357651 A 2一种基于调度中心的 ETL系统 技术领域 [0001]本发明涉及数据调度处 理技术领域, 具体涉及一种基于调度中心的ETL系统。 背景技术 [0002]随着数字化转型的深入以及信息系统的广泛应用, 数据已经成为了重要的资源, 是进行科学分析、 管理以及决策 的基础。 为此企业花费大量的资金以及时间构建数据服务 中心, 用于记录事务处理 的各种相关数据, 而ETL(Extract  Transform  Load)能将分布的、 异构数据源中的数据抽取到中间层后进 行清洗、 转换、 集 成, 并按定义好的数据模型加载到 数据仓库中, 这个过程是数据中心进 行数据分析挖掘的基础, 因此ETL 成为了构建数据库中 心的一个重要环节, 通常情况下通过建立调度中心, 对ETL的处理过程进行任务流程化调 度, 对整个ETL进 行调度管理, 以满足数据服务的数据实时性以及服务连续性要求, ETL过程 是一个端到端的过程, 是一种从源到目标系统转换数据的过程, 将分散、 异构的数据整合到 目标仓库中, 以提供数据服务给业务系统使用, 首先从多种数据源中 收集数据并进 行处理, 然后把处理过 的数据加载到数据库中, 其过程是相互关联 的任务顺序执行, 主要工作包括 数据抽取、 数据转换以及数据加载, 现有的ETL系统在使用时还 存在以下缺陷: [0003]1、 面对海量数据, 同步周期长, 无法满足业务场景, 特别是数据实时性要求比较高 的业务场景对数据新鲜度的要求; [0004]2、 完成数据转换后进行数据加载, 需要暂停业务进行结果数据的更新, 无法满足 对服务连续性的要求; [0005]3、 资源利用率低下, 无法利用有限的资源 对重要、 关键的任务进行优先处 理。 发明内容 [0006]本发明提供一种基于调度中心的ETL系统, 将ETL过程任务流程化, 建立统一调度 中心进行多流程实例 控制, 通过对整个ETL中的流程调度, 任务调度以及服务调度, 以多通 道服务的方式动态提供业务服务, 以达到整个ETL的同步速率提升以及业务稳定性保证的 目的, 以解决上述背景技 术中提出的问题。 [0007]为解决上述 技术问题, 本发明所采用的技 术方案是: [0008]一种基于调度中心的ETL系统, 包括ETL数据调度系统, 所述ETL数据调度系统包括 有调度中心、 流程调 度系统、 任务调度系统和服务调 度系统, 所述流程调度系统结合希尔排 序的EDF调度算法使用, 所述任务调度系统由高优先级任务调度处理系统和时序任务调度 处理系统构成, 所述服务调 度系统由新类型服务数据接收系统、 新类型服务注册系统、 服务 标识校验系统和数据服 务请求注销系统构成。 [0009]本发明技术方案的进一步改进在于: 所述流程调度系统在EDF调度算法的基础上, 综合考虑 任务截止时间、 执行价值、 消耗时间三种因素确定任务优先级, 通过希尔排序算法 对任务进 行优化选择, 既保证优先级高的任务先执行, 又要保证完成尽可能多的任务 实例, 使任务的错失率降到最低。说 明 书 1/6 页 3 CN 115357651 A 3

PDF文档 专利 一种基于调度中心的ETL系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于调度中心的ETL系统 第 1 页 专利 一种基于调度中心的ETL系统 第 2 页 专利 一种基于调度中心的ETL系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。