全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210615540.5 (22)申请日 2022.05.31 (71)申请人 网易 (杭州) 网络有限公司 地址 310056 浙江省杭州市滨江区长河街 道网商路59 9号4幢7层 (72)发明人 冯阳 詹佳涵 王英旋 谢泽勇  吴剑飞 刘柏 范长杰 程龙  胡志鹏  (74)专利代理 机构 北京风雅颂专利代理有限公 司 11403 专利代理师 李弘 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) (54)发明名称 数据捕获方法、 装置、 系统、 电子 设备及存储 介质 (57)摘要 本申请提供一种数据捕获方法、 装置、 系统、 电子设备及存储介质。 该方法包括: 接收目标数 据信息; 根据目标数据信息确定目标数据的当前 数据量; 根据当前数据量确定目标工作实例; 利 用目标工作实例根据目标数据信息从数据源获 取目标数据; 根据反压机制将目标数据缓存至与 目标工作实例绑定的目标存储环。 从而提高了数 据捕获的采集效率, 利用目标工作实例对目标数 据进行获取, 减少中间数据处理逻辑, 并且可 以 根据反压机制将目标数据进行缓存, 使得根据目 标数据的当前数据量选择有足够的存储空间的 目标工作实例对目标数据进行获取, 将目标数据 进行集中 式管理, 降低了元 数据的捕获难度。 权利要求书3页 说明书11页 附图3页 CN 115080563 A 2022.09.20 CN 115080563 A 1.一种数据捕获方法, 其特 征在于, 包括: 接收目标 数据信息; 根据所述目标 数据信息确定目标 数据的当前 数据量; 根据所述当前 数据量确定目标工作实例; 利用所述目标工作实例根据所述目标 数据信息从数据源获取 所述目标 数据; 根据反压 机制将所述目标 数据缓存至与所述目标工作实例绑定的目标存 储环。 2.根据权利要求1所述的方法, 其特征在于, 所述目标数据信 息, 包括: 连接信 息和数据 关键字段; 所述根据所述目标 数据信息确定目标 数据的当前 数据量, 还 包括: 根据所述连接信息确定数据源地址; 根据所述数据源地址通过寻址的方式访问所述数据源; 根据所述数据关键 字段确定是否在所述数据源中匹配到所述目标 数据; 响应于在所述数据源中匹配到所述目标 数据, 确定所述目标 数据的当前 数据量。 3.根据权利要求1所述的方法, 其特征在于, 所述目标工作实例, 包括: 第 一目标工作实 例; 所述根据所述当前 数据量确定目标工作实例, 还 包括: 获取每个工作实例的剩余 容量; 确定是否存在所述剩余 容量不小于所述当前 数据量的候选 工作实例; 响应于存在所述剩余容量不小于所述当前数据量的候选工作实例, 将所述剩余容量最 大的候选 工作实例确定为所述第一目标工作实例。 4.根据权利要求3所述的方法, 其特征在于, 所述目标工作实例, 还包括: 第 二目标工作 实例; 所述目标存 储环, 包括: 第二目标存 储环; 所述根据反压机制 将所述目标数据缓存至与所述目标工作实例绑定的目标存储环, 包 括: 响应于不存在所述剩余容量不小于所述当前数据量的候选工作实例, 将所述剩余容量 最大的工作实例确定为所述第二目标工作实例; 确定与所述第二目标工作实例绑定的第二目标存 储环; 根据所述反压机制调整所述第二目标存储环以使所述第二目标工作实例的剩余容量 不小于所述当前 数据量; 将所述目标 数据缓存至所述第二目标存 储环。 5.根据权利要求 4所述的方法, 其特 征在于, 所述第二目标存 储环, 包括: 首地址; 所述调整所述第二目标存储环以使所述第二目标工作实例的剩余容量不小于所述当 前数据量, 包括: 将与所述第二目标工作实例的剩余容量相同数据量的所述目标数据写入所述第二目 标存储环; 将冗余数据溢写到下游的存储库; 其中, 所述冗余数据为所述第二目标存储环中除上 述目标数据外的数据; 将所述目标 数据的剩余数据写入所述第二目标存 储环; 根据所述首地址和所述存 储库中的所述冗余数据的数据量重新确定所述首地址 。权 利 要 求 书 1/3 页 2 CN 115080563 A 26.根据权利要求3所述的方法, 其特征在于, 所述目标存储环, 还包括: 第一目标存储 环; 所述根据反压机制 将所述目标数据缓存至与所述目标工作实例绑定的目标存储环, 包 括: 确定与所述第一目标工作实例绑定的第一目标存储环; 其中, 所述第 一目标存储环, 包 括: 位移标记; 根据所述反压 机制将所述目标 数据写入所述第一目标存 储环; 根据所述当前 数据量和所述 位移标记确定存 储结束地址 。 7.根据权利要求1所述的方法, 其特征在于, 所述目标数据包括通过针对二进制数据解 析获得的通用数据。 8.根据权利要求1所述的方法, 其特征在于, 所述利用所述目标工作实例根据 所述目标 数据信息从数据源获取 所述目标 数据, 包括: 根据所述目标 数据信息确定抽取逻辑; 所述抽取逻辑包括全量抽取逻辑; 响应于所述抽取逻辑为所述全量抽取逻辑, 根据 所述目标工作实例获取所述数据源中 全部数据, 作为所述目标 数据。 9.根据权利要求1所述的方法, 其特征在于, 所述利用所述目标工作实例根据 所述目标 数据信息从数据源获取 所述目标 数据, 包括: 根据所述目标 数据信息确定抽取逻辑; 所述抽取逻辑包括增量抽取逻辑; 响应于所述抽取逻辑为所述增量抽取逻辑, 根据 所述目标工作实例获取所述数据源中 的增量数据, 将所述增量数据作为所述目标 数据。 10.根据权利要求1所述的方法, 其特 征在于, 所述方法, 还 包括: 标记所述目标存 储环以确定唯一标识; 响应于所述目标 数据被缓存至所述目标存 储环, 确定缓存位置; 将所述缓存位置记录 至分布式元 数据管理系统; 响应于所述目标工作实例故障, 根据所述唯一标识从所述缓存位置获取所述目标数 据, 以恢复所述目标 数据。 11.一种数据捕获装置, 其特 征在于, 包括: 接收模块, 被 配置为接收目标 数据信息; 第一确定模块, 被 配置为根据所述目标 数据信息确定目标 数据的当前 数据量; 第二确定模块, 被 配置为根据所述当前 数据量确定目标工作实例; 获取模块, 被配置为利用所述目标工作实例根据 所述目标数据信 息从数据源获取所述 目标数据; 缓存模块, 被配置为根据反压机制将所述目标数据缓存至与 所述目标工作实例绑定的 目标存储环。 12.一种数据捕获系统, 其特征在于, 包括: 如权利要求11所述的数据捕获装置以及工 作实例生成单 元; 其中, 所述工作实例生成单元, 被配置为构建管理组件和所述管理组件管理的服务组件; 以 及为所述 服务组件分配工作实例。 13.根据权利要求12所述的数据捕获系统, 其特征在于, 所述工作实例生成单元, 进一权 利 要 求 书 2/3 页 3 CN 115080563 A 3

.PDF文档 专利 数据捕获方法、装置、系统、电子设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据捕获方法、装置、系统、电子设备及存储介质 第 1 页 专利 数据捕获方法、装置、系统、电子设备及存储介质 第 2 页 专利 数据捕获方法、装置、系统、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:15:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。