(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210724310.2
(22)申请日 2022.06.24
(65)同一申请的已公布的文献号
申请公布号 CN 114817393 A
(43)申请公布日 2022.07.29
(73)专利权人 深圳市信联征信有限公司
地址 518000 广东省深圳市南 山区粤海街
道高新南九道10号深圳湾科技生态园
10栋B座19层
(72)发明人 夏添 刘新宇 王霏 乔胜
胡玉炜
(74)专利代理 机构 深圳市壹 壹壹知识产权代理
事务所(普通 合伙) 44521
专利代理师 阮帆(51)Int.Cl.
G06F 16/25(2019.01)
G06F 16/215(2019.01)
G06F 16/951(2019.01)
(56)对比文件
CN 109684319 A,2019.04.26
CN 108846076 A,2018.1 1.20
CN 111767335 A,2020.10.13
CN 110569090 A,2019.12.13
CN 109684319 A,2019.04.26
审查员 陈琪
(54)发明名称
数据抽取和清洗方法、 装置及存 储介质
(57)摘要
本发明公开了一种数据抽取和清洗方法、 装
置及存储介质, 该方法包括: 响应于用户的操作,
从组件库中选择ET L操作组件, 该ET L操作组件的
类型至少包括两种: 源数据节和数据输出目标
表, 该源数据节为各种不同类型源 数据抽取配置
的集合, 该源数据节的类型包括四种: 库表共享
源数据节、 Excel文件源数据节、 数据接口源数据
节以及网页爬取源数据节; 从该 组件库中选择数
据清洗模型; 按照一定的顺序线性连接该ETL操
作组件和该数据清洗模型, 生 成一个数据抽取和
清洗的任务。 本发明提供一种多源 数据抽取和清
洗、 智能调度的数据中台, 能够可视化、 高效、 准
确地实现数据抽取和清洗 。
权利要求书2页 说明书10页 附图8页
CN 114817393 B
2022.09.16
CN 114817393 B
1.一种数据抽取和清洗方法, 其特 征在于, 包括:
配置源数据节, 所述源数据节为各种不同类型源数据抽取配置的集合, 所述源数据节
的类型包括四种: 库表共享源数据节、 Excel文件源数据节、 数据接口源数据节以及网页爬
取源数据 节, 所述配置源数据 节包括: 在所述源数据 节为库表共享源 数据节时, 按照如下内
容填写所述源数据节的配置表单: 外部数据库地址、 连接端口、 外部数据库类型、 外部数据
库连接凭证、 从外部数据库 获取目标数据的SQL语句; 在所述源数据节为Excel文件源数据
节时, 按照如下内容填写所述源数据节的配置表单: 本地Excel文件路径、 选择 目标数据所
在sheet页名称, 以及表头与字段名称映射配置; 在所述源数据节为数据接口源数据节时,
按照如下内容填写所述源数据节的配置表单: 请求配置、 接口请求体参数、 结果解析; 所述
请求配置的数据类型包括: 接口Url地址、 接口请求类型、 接口鉴权方式配置、 接口请求头配
置以及待调用数据集, 所述结果解析的数据类型包括: 接口返回结果类型、 和接口返回结果
解析规则; 在所述源数据节为网页爬取源数据节时, 按照如下内容填写所述源数据节的配
置表单: 目标爬取页面Url、 请求头配置、 前置请求配置以及解析规则;
对所配置的源数据节进行抽数测试, 所述对所配置的源数据节进行抽数测试包括: 若
未获取到预期数据, 将所配置的源数据 节设置为禁用状态, 返回重新配置所述源 数据节; 若
获取到预期数据, 则将所述源数据节设置为启用状态;
响应于用户的操作, 从组件库中选择ETL操作组件, 所述ETL操作组件的类型至少包括
两种: 源数据节和数据输出目标表;
配置数据清洗模型, 所述配置数据清洗模型包括: 配置并组合字段级处理逻辑规则, 形
成数据清洗模型;
从所述组件库中选择 数据清洗模型;
按照一定的顺序线性连接所述ETL操作组件和所述数据清洗模型, 生成一个数据抽取
和清洗的任务;
调度所述任务; 所述调度 所述任务包括两种类型: 第 一种为根据时间轴配置, 第 二种为
根据任务间的依赖配置; 所述根据时间轴配置具体为: 选择时间轴上的任意时刻, 在所述选
择的时刻自动执行所述任务; 所述根据任务间的依赖配置包括两种类型, 第一种为 “队列”,
第二种为“锁”; 在依赖配置为 “队列”类型时, 按照任务配置的队列顺序去 执行任务, 如果前
一个任务未执行, 则下一个任务即使在时间轴中配置了也不会执行; 在依赖配置为 “锁”类
型时, 同一个锁的任务不会同时开始执行, 若一个任务正在执行, 同一个锁的其他任务被调
度到等待区进行等待, 直到所述 正在执行的任务执 行完毕才开始执 行。
2.根据权利要求1所述的方法, 其特征在于, 还包括: 智能调优所述任务; 所述智能调优
所述任务, 包括:
对于首次执行的任务进行预分配, 将任务分配至当前较为空闲的资源执行, 并在执行
过程中持续 监控任务所耗费的资源;
对于非首次执行任务, 判断当前的资源使用情况是否能容纳负载所述任务执行所需的
资源, 若资源充足, 将所述任务按依赖配置准确执行, 若资源紧缺, 系统会将所述任务放置
在等待区, 当 资源足以负载 所述任务时才执 行所述任务。
3.一种数据抽取和清洗装置, 其特 征在于, 包括:
源数据节配置模块, 所述源数据节配置模块包括: 库表共享源数据节配置单元, 用于在权 利 要 求 书 1/2 页
2
CN 114817393 B
2所述源数据节为库表共享源数据节时, 按照如下内容填写所述源数据节的配置表单: 外部
数据库地址、 连接端口、 外部数据库类型、 外部数据库连接凭证、 从外部数据库获取目标数
据的SQL语句; Excel文件源数据节配置单元, 用于在所述源数据节为Excel文件源数据节
时, 按照如下内容填写所述源数据节的配置表单: 本地Excel文件路径、 选择目标数据所在
sheet页名称, 表头与字段名称映射配置; 数据接口源数据节配置单元, 用于在所述源数据
节为数据接口源数据 节时, 按照如下内容填写所述源数据节的配置表单: 请求配置、 接口请
求体参数、 结果解析; 所述请求配置的数据类型包括: 接口Url地址、 接口请求类型、 接口鉴
权方式配置、 接口请求头配置、 以及待调用数据集, 所述结果解析 的数据类型包括: 接口返
回结果类型、 和接口返回结果解析规则; 网页爬取源数据节配置单元, 用于在所述源数据 节
为网页爬取源数据节 时, 按照如下内容填写所述源数据节的配置表单: 目标爬取页面Url、
请求头配置、 前置请求配置以及解析规则;
抽数测试模块, 所述抽数测试模块用于若未获取到预期数据, 将所配置的源数据节设
置为禁用状态, 返回重新配置所述源数据 节; 若获取到预期数据, 则将所述源数据 节设置为
启用状态;
数据清洗模型配置模块, 所述数据清洗模型配置模块, 用于配置并组合字段级处理逻
辑规则, 形成数据清洗模型;
ETL操作组件选择模块, 用于响应于用户的操作, 从组件库中选择ETL操作组件, 所述
ETL操作组件的类型至少包括两种: 源数据 节和数据输出目标表, 所述源数据 节为各种不同
类型源数据抽取配置的集合, 所述源数据节的类型包括四种: 库表共享源数据节、 Excel文
件源数据节、 数据接口源数据节以及网页爬取源数据节;
数据清洗模型选择模块, 用于从所述组件库中选择 数据清洗模型;
数据抽取和清洗任务生成模块, 用于按照一定的顺序线性连接所述ETL操作组件和所
述数据清洗模型, 生成一个数据抽取和清洗的任务;
数据抽取和清洗任务调度模块, 所述数据抽取和清洗任务调度模块包括 时间轴配置单
元和依赖配置单元; 所述时间轴配置单元, 用于选择时间轴上的任意时刻, 在所述选择的时
刻自动执行所述任务; 所述依赖配置单元包括队列依赖配置子单元和锁依赖配置子单元;
所述队列依赖配置子单元用于按照任务配置的队列顺序去 执行任务, 如果前一个任务未执
行, 则下一个任务即使在时间轴中配置了也不会执行; 所述锁依赖配置子单元用于同一个
锁的任务不会同时开始执行, 若一个任务正在执行, 同一个锁的其他任务被调度到等待区
进行等待, 直到所述 正在执行的任务执 行完毕才开始执 行。
4.根据权利要求3所述的装置, 其特征在于, 还包括: 数据抽取和清洗任务调优模块, 所
述数据抽取和清洗任务调优 模块包括任务配置单 元和任务 监控单元;
所述任务配置单元用于对于首次执行的任务进行预分配, 将任务分配至当前较为空闲
的资源执 行, 并在执 行过程中持续 监控任务所耗费的资源;
所述任务监控单元用于对于非首次执行任务, 判断当前的资源使用情况是否能容纳负
载所述任务执行所需的资源, 若资源充足, 将所述任务按依赖配置准确执行, 若资源紧缺,
系统会将所述任务 放置在等待区, 当 资源足以负载 所述任务时才执 行所述任务。
5.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机可
执行指令, 所述计算机可 执行指令用于使计算机执 行如权利要求1或2所述的方法。权 利 要 求 书 2/2 页
3
CN 114817393 B
3
专利 数据抽取和清洗方法、装置及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:02:22上传分享