全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210884547.7 (22)申请日 2022.07.25 (71)申请人 浪潮卓数 大数据产业发展 有限公司 地址 214002 江苏省无锡市无锡经济开发 区金融一街15号1101、 1102、 1103、 1104、 1105、 1106、 1107、 1108 (72)发明人 王家海 单震 国靖  (74)专利代理 机构 北京君慧知识产权代理事务 所(普通合伙) 11716 专利代理师 肖鹏 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/25(2019.01) (54)发明名称 一种数据采集方法、 设备及 介质 (57)摘要 本申请公开了一种数据采集方法、 设备及介 质, 其中, 方法包括: 获取数据需求方提出的数据 需求信息, 根据数据需求信息建立数据采集任 务; 确定数据采集任务的数据采集流程, 并通过 预设的脚本模板, 生成与数据采集流程依次匹配 的多个数据采集脚本; 对多个数据采集脚本进行 校验, 以确定多个数据采集脚本的执行情况是否 满足预设要求; 在多个数据采集脚本的执行情况 均满足预设要求的情况下, 上线多个数据采集脚 本, 并在检测到数据采集任务的执行指令的情况 下, 通过多个数据采集脚本执行数据采集任务, 以获取到相应的目标数据。 权利要求书2页 说明书7页 附图1页 CN 115114275 A 2022.09.27 CN 115114275 A 1.一种数据采集方法, 其特 征在于, 所述方法包括: 获取数据需求方提出的数据需求信息, 根据所述数据需求信息建立数据采集任务; 确定所述数据采集任务的数据采集流程, 并通过预设的脚本模板, 生成与所述数据采 集流程依次匹配的多个数据采集脚本; 对所述多个数据采集脚本进行校验, 以确定所述多个数据采集脚本的执行情况是否满 足预设要求; 在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下, 上线所述多个数 据采集脚本, 并在检测到所述数据采集任务的执行指令的情况下, 通过所述多个数据采集 脚本执行所述数据采集任务, 以获取到相应的目标 数据。 2.根据权利要求1所述的一种数据采集方法, 其特征在于, 对所述多个数据采集脚本进 行校验, 以确定所述多个数据采集脚本的执 行情况是否满足预设要求, 具体包括: 构建用于校验所述多个数据采集脚本执 行情况的验证表; 依次执行所述多个数据采集脚本, 从预置数据库中采集验证数据, 并将所述验证数据 保存至所述验证表; 将所述验证表中的验证数据与所述数据库中的至少部分数据进行对比, 以确定所述多 个数据采集脚本的执行情况是否满足预设要求, 所述至少部分数据与所述验证数据相对 应。 3.根据权利要求1所述的一种数据采集方法, 其特征在于, 所述预设的脚本模板包括用 于检索预置数据库中数据的通用检索语句, 通过预设的脚本模板, 生成与所述数据采集流 程依次匹配的多个数据采集脚本, 具体包括: 确定所述数据采集流程中所需采集的目标数据的字段信 息, 将所述字段信 息导入到所 述预设的脚本模板中; 根据所述字段信息, 调整所述预设的脚本模板中的通用检索语句, 以生成与所述数据 采集流程匹配的数据采集脚本 。 4.根据权利要求2所述的一种数据采集方法, 其特征在于, 确定所述多个数据采集脚本 的执行情况是否满足预设要求之后, 所述方法还 包括: 若所述多个数据采集脚本的执行情况不满足预设要求, 则对所述多个数据采集脚本进 行优化。 5.根据权利要求1所述的一种数据采集方法, 其特征在于, 获取数据需求方提出的数据 需求信息, 根据所述数据需求信息建立数据采集任务, 具体包括: 对所述数据需求信息进行建模, 生成对应的数据字典; 确定所述数据需求信 息所需调用的数据源信 息, 并根据 所述数据字典和所述数据源信 息, 建立数据采集任务; 所述数据源信息 至少包括预置数据库信息 。 6.根据权利要求1所述的一种数据采集方法, 其特征在于, 通过所述多个数据采集脚本 执行所述数据采集任务, 以获取到相应的目标 数据, 具体包括: 根据所述数据采集 流程, 确定所述数据采集任务中包 含的多个子任务的优先级; 将所述多个子任务, 按照其对应的优先级下发至待执行任务队列中, 所述待执行任务 队列包括子任务信息以及与所述子任务信息相关联的数据采集脚本信息; 通过异步调度的方式, 依次执 行所述多个子任务, 以获取到目标 数据。权 利 要 求 书 1/2 页 2 CN 115114275 A 27.根据权利要求6所述的一种数据采集方法, 其特征在于, 通过异步调度的方式, 依次 执行所述多个子任务, 以获取到目标 数据, 具体包括: 针对所述多个子任务, 获取 所述子任务的开始执 行时间; 根据所述开始执行时间, 确定所述子任务的已执行时长, 若所述已执行时长大于预设 执行时长, 则发送超时提示信息至流程引擎, 以根据所述超时提示信息停止当前正在执行 的所述子任务, 并进行告警。 8.根据权利要求1所述的一种数据采集方法, 其特征在于, 获取到相应的目标数据之 后, 所述方法还 包括: 对所述目标数据进行集成, 并对集成后的所述目标数据进行过滤, 得到以固定格式存 储的所述目标 数据; 将所述以固定格式存储的所述目标数据转存至分析库中, 以便于对所述目标数据进行 后续分析。 9.一种数据采集设备, 其特 征在于, 设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够: 获取数据需求方提出的数据需求信息, 根据所述数据需求信息建立数据采集任务; 确定所述数据采集任务的数据采集流程, 并通过预设的脚本模板, 生成与所述数据采 集流程依次匹配的多个数据采集脚本; 对所述多个数据采集脚本进行校验, 以确定所述多个数据采集脚本的执行情况是否满 足预设要求; 在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下, 上线所述多个数 据采集脚本, 并在检测到所述数据采集任务的执行指令的情况下, 通过所述多个数据采集 脚本执行所述数据采集任务, 以获取到相应的目标 数据。 10.一种非易失性计算机存储介质, 存储有计算机可执行指令, 其特征在于, 所述计算 机可执行指令设置为: 获取数据需求方提出的数据需求信息, 根据所述数据需求信息建立数据采集任务; 确定所述数据采集任务的数据采集流程, 并通过预设的脚本模板, 生成与所述数据采 集流程依次匹配的多个数据采集脚本; 对所述多个数据采集脚本进行校验, 以确定所述多个数据采集脚本的执行情况是否满 足预设要求; 在所述多个数据采集脚本的执行情况均满足所述预设要求的情况下, 上线所述多个数 据采集脚本, 并在检测到所述数据采集任务的执行指令的情况下, 通过所述多个数据采集 脚本执行所述数据采集任务, 以获取到相应的目标 数据。权 利 要 求 书 2/2 页 3 CN 115114275 A 3

PDF文档 专利 一种数据采集方法、设备及介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据采集方法、设备及介质 第 1 页 专利 一种数据采集方法、设备及介质 第 2 页 专利 一种数据采集方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。