全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210724310.2 (22)申请日 2022.06.24 (65)同一申请的已公布的文献号 申请公布号 CN 114817393 A (43)申请公布日 2022.07.29 (73)专利权人 深圳市信联征信有限公司 地址 518000 广东省深圳市南 山区粤海街 道高新南九道10号深圳湾科技生态园 10栋B座19层 (72)发明人 夏添 刘新宇 王霏 乔胜  胡玉炜  (74)专利代理 机构 深圳市壹 壹壹知识产权代理 事务所(普通 合伙) 44521 专利代理师 阮帆(51)Int.Cl. G06F 16/25(2019.01) G06F 16/215(2019.01) G06F 16/951(2019.01) (56)对比文件 CN 109684319 A,2019.04.26 CN 108846076 A,2018.1 1.20 CN 111767335 A,2020.10.13 CN 110569090 A,2019.12.13 CN 109684319 A,2019.04.26 审查员 陈琪 (54)发明名称 数据抽取和清洗方法、 装置及存 储介质 (57)摘要 本发明公开了一种数据抽取和清洗方法、 装 置及存储介质, 该方法包括: 响应于用户的操作, 从组件库中选择ET L操作组件, 该ET L操作组件的 类型至少包括两种: 源数据节和数据输出目标 表, 该源数据节为各种不同类型源 数据抽取配置 的集合, 该源数据节的类型包括四种: 库表共享 源数据节、 Excel文件源数据节、 数据接口源数据 节以及网页爬取源数据节; 从该 组件库中选择数 据清洗模型; 按照一定的顺序线性连接该ETL操 作组件和该数据清洗模型, 生 成一个数据抽取和 清洗的任务。 本发明提供一种多源 数据抽取和清 洗、 智能调度的数据中台, 能够可视化、 高效、 准 确地实现数据抽取和清洗 。 权利要求书2页 说明书10页 附图8页 CN 114817393 B 2022.09.16 CN 114817393 B 1.一种数据抽取和清洗方法, 其特 征在于, 包括: 配置源数据节, 所述源数据节为各种不同类型源数据抽取配置的集合, 所述源数据节 的类型包括四种: 库表共享源数据节、 Excel文件源数据节、 数据接口源数据节以及网页爬 取源数据 节, 所述配置源数据 节包括: 在所述源数据 节为库表共享源 数据节时, 按照如下内 容填写所述源数据节的配置表单: 外部数据库地址、 连接端口、 外部数据库类型、 外部数据 库连接凭证、 从外部数据库 获取目标数据的SQL语句; 在所述源数据节为Excel文件源数据 节时, 按照如下内容填写所述源数据节的配置表单: 本地Excel文件路径、 选择 目标数据所 在sheet页名称, 以及表头与字段名称映射配置; 在所述源数据节为数据接口源数据节时, 按照如下内容填写所述源数据节的配置表单: 请求配置、 接口请求体参数、 结果解析; 所述 请求配置的数据类型包括: 接口Url地址、 接口请求类型、 接口鉴权方式配置、 接口请求头配 置以及待调用数据集, 所述结果解析的数据类型包括: 接口返回结果类型、 和接口返回结果 解析规则; 在所述源数据节为网页爬取源数据节时, 按照如下内容填写所述源数据节的配 置表单: 目标爬取页面Url、 请求头配置、 前置请求配置以及解析规则; 对所配置的源数据节进行抽数测试, 所述对所配置的源数据节进行抽数测试包括: 若 未获取到预期数据, 将所配置的源数据 节设置为禁用状态, 返回重新配置所述源 数据节; 若 获取到预期数据, 则将所述源数据节设置为启用状态; 响应于用户的操作, 从组件库中选择ETL操作组件, 所述ETL操作组件的类型至少包括 两种: 源数据节和数据输出目标表; 配置数据清洗模型, 所述配置数据清洗模型包括: 配置并组合字段级处理逻辑规则, 形 成数据清洗模型; 从所述组件库中选择 数据清洗模型; 按照一定的顺序线性连接所述ETL操作组件和所述数据清洗模型, 生成一个数据抽取 和清洗的任务; 调度所述任务; 所述调度 所述任务包括两种类型: 第 一种为根据时间轴配置, 第 二种为 根据任务间的依赖配置; 所述根据时间轴配置具体为: 选择时间轴上的任意时刻, 在所述选 择的时刻自动执行所述任务; 所述根据任务间的依赖配置包括两种类型, 第一种为 “队列”, 第二种为“锁”; 在依赖配置为 “队列”类型时, 按照任务配置的队列顺序去 执行任务, 如果前 一个任务未执行, 则下一个任务即使在时间轴中配置了也不会执行; 在依赖配置为 “锁”类 型时, 同一个锁的任务不会同时开始执行, 若一个任务正在执行, 同一个锁的其他任务被调 度到等待区进行等待, 直到所述 正在执行的任务执 行完毕才开始执 行。 2.根据权利要求1所述的方法, 其特征在于, 还包括: 智能调优所述任务; 所述智能调优 所述任务, 包括: 对于首次执行的任务进行预分配, 将任务分配至当前较为空闲的资源执行, 并在执行 过程中持续 监控任务所耗费的资源; 对于非首次执行任务, 判断当前的资源使用情况是否能容纳负载所述任务执行所需的 资源, 若资源充足, 将所述任务按依赖配置准确执行, 若资源紧缺, 系统会将所述任务放置 在等待区, 当 资源足以负载 所述任务时才执 行所述任务。 3.一种数据抽取和清洗装置, 其特 征在于, 包括: 源数据节配置模块, 所述源数据节配置模块包括: 库表共享源数据节配置单元, 用于在权 利 要 求 书 1/2 页 2 CN 114817393 B 2所述源数据节为库表共享源数据节时, 按照如下内容填写所述源数据节的配置表单: 外部 数据库地址、 连接端口、 外部数据库类型、 外部数据库连接凭证、 从外部数据库获取目标数 据的SQL语句; Excel文件源数据节配置单元, 用于在所述源数据节为Excel文件源数据节 时, 按照如下内容填写所述源数据节的配置表单: 本地Excel文件路径、 选择目标数据所在 sheet页名称, 表头与字段名称映射配置; 数据接口源数据节配置单元, 用于在所述源数据 节为数据接口源数据 节时, 按照如下内容填写所述源数据节的配置表单: 请求配置、 接口请 求体参数、 结果解析; 所述请求配置的数据类型包括: 接口Url地址、 接口请求类型、 接口鉴 权方式配置、 接口请求头配置、 以及待调用数据集, 所述结果解析 的数据类型包括: 接口返 回结果类型、 和接口返回结果解析规则; 网页爬取源数据节配置单元, 用于在所述源数据 节 为网页爬取源数据节 时, 按照如下内容填写所述源数据节的配置表单: 目标爬取页面Url、 请求头配置、 前置请求配置以及解析规则; 抽数测试模块, 所述抽数测试模块用于若未获取到预期数据, 将所配置的源数据节设 置为禁用状态, 返回重新配置所述源数据 节; 若获取到预期数据, 则将所述源数据 节设置为 启用状态; 数据清洗模型配置模块, 所述数据清洗模型配置模块, 用于配置并组合字段级处理逻 辑规则, 形成数据清洗模型; ETL操作组件选择模块, 用于响应于用户的操作, 从组件库中选择ETL操作组件, 所述 ETL操作组件的类型至少包括两种: 源数据 节和数据输出目标表, 所述源数据 节为各种不同 类型源数据抽取配置的集合, 所述源数据节的类型包括四种: 库表共享源数据节、 Excel文 件源数据节、 数据接口源数据节以及网页爬取源数据节; 数据清洗模型选择模块, 用于从所述组件库中选择 数据清洗模型; 数据抽取和清洗任务生成模块, 用于按照一定的顺序线性连接所述ETL操作组件和所 述数据清洗模型, 生成一个数据抽取和清洗的任务; 数据抽取和清洗任务调度模块, 所述数据抽取和清洗任务调度模块包括 时间轴配置单 元和依赖配置单元; 所述时间轴配置单元, 用于选择时间轴上的任意时刻, 在所述选择的时 刻自动执行所述任务; 所述依赖配置单元包括队列依赖配置子单元和锁依赖配置子单元; 所述队列依赖配置子单元用于按照任务配置的队列顺序去 执行任务, 如果前一个任务未执 行, 则下一个任务即使在时间轴中配置了也不会执行; 所述锁依赖配置子单元用于同一个 锁的任务不会同时开始执行, 若一个任务正在执行, 同一个锁的其他任务被调度到等待区 进行等待, 直到所述 正在执行的任务执 行完毕才开始执 行。 4.根据权利要求3所述的装置, 其特征在于, 还包括: 数据抽取和清洗任务调优模块, 所 述数据抽取和清洗任务调优 模块包括任务配置单 元和任务 监控单元; 所述任务配置单元用于对于首次执行的任务进行预分配, 将任务分配至当前较为空闲 的资源执 行, 并在执 行过程中持续 监控任务所耗费的资源; 所述任务监控单元用于对于非首次执行任务, 判断当前的资源使用情况是否能容纳负 载所述任务执行所需的资源, 若资源充足, 将所述任务按依赖配置准确执行, 若资源紧缺, 系统会将所述任务 放置在等待区, 当 资源足以负载 所述任务时才执 行所述任务。 5.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机可 执行指令, 所述计算机可 执行指令用于使计算机执 行如权利要求1或2所述的方法。权 利 要 求 书 2/2 页 3 CN 114817393 B 3

PDF文档 专利 数据抽取和清洗方法、装置及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据抽取和清洗方法、装置及存储介质 第 1 页 专利 数据抽取和清洗方法、装置及存储介质 第 2 页 专利 数据抽取和清洗方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。