全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210830838.8 (22)申请日 2022.07.15 (71)申请人 浙江网安信创电子技 术有限公司 地址 310000 浙江省杭州市下城区绍兴 路 161号野风现代中心南楼 2501室 (72)发明人 刘旭东 张铁錶 潘自星 王淳  谢作樟  (74)专利代理 机构 杭州奇炬知识产权代理事务 所(特殊普通 合伙) 33393 专利代理师 贺心韬 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/27(2019.01) G06F 21/62(2013.01) G06F 40/253(2020.01)G06F 40/205(2020.01) (54)发明名称 基于Flink SQL实现元数据管理的方法 (57)摘要 本发明公开了基于 Flink SQL实现元数据管 理的方法, 具体涉及数据处理技术领域, 所属方 法包括: 采集并持久化数据源元数据信息; 根据 采集的数据源元数据信息配置, 生成并校验 Flink SQL表结构; 持久化Flink  SQL表元数据信 息; 解析Flink  SQL作业语法准确性及作业与 Flink SQL表对应关系, 生成校验结果; 将生成的 校验结果通过可视化界面展示。 本发明简化 Flink SQL作业的开发流程, 达到一次配置多作 业引用的效果; 配置Flink  SQL表数据源信息为 自动采集, 用户无需关注敏感信息, 如数据源账 号及密码等, 从而避免敏感信息泄漏, 达到信息 安全的目的。 权利要求书1页 说明书7页 附图2页 CN 115114299 A 2022.09.27 CN 115114299 A 1.一种基于Fl ink SQL实现元数据管理的方法, 其特 征在于, 包括: S1、 采集并持久化数据源元 数据信息; S2、 根据采集到的数据源元 数据信息配置, 生成并校验Fl ink SQL表结构; S3、 持久化Fl ink SQL表元数据信息; S4、 解析并校验Fl ink SQL作业元数据信息 。 2.根据权利要求1所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 上述S1 中所述数据源元数据信 息为分布式发布订 阅消息系统Kafka、 MySQL、 Oracle、 PostgreSQL、 KingBase及Gbase8s。 3.根据权利要求2所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 所述数 据源KingBase和Gbase8s为自定义数据源, 通过Java的服务提供者接口实现Dynamic  Table  Source Factory和D ynamic Table Sink Factory, 用于提供Kin gBase和Gbase8s连接器逻 辑, 将元数据转换为Dynamic  Table Source和Dynamic  Table Sink实例, 通过Abstract   Dialect接口重写Ki ngBase及Gbase8s的特定方言。 4.根据权利要求3所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 所述的 方言包括 INSERT、 UP DATE、 DELETE、 SELE CT、 LIMIT及标识符。 5.根据权利要求1所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 上述S2 包括配置映射字段、 自定义字段及表 参数, 其中映射字段为Flink  SQL表与数据源 元数据字 段的映射, 包括字段类型 的转换与主键的设置; 自定义字段为用户通过前端可视化界面自 定义Flink  SQL表字段及配置watermark信息; 表参数分为Flink  Table表名和数据源对应 连接器参数。 6.根据权利要求1所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 所述S3 中持久化Fl ink SQL元数据到数据库, 并维护Fl ink SQL元数据与作业的对应关系。 7.根据权利要求1所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 上述S4 采用Apache  calcite解析SQL语句, 通过calcite  parser将SQL语句转换为抽象语法树 SqlNodeList, 验证SQL语句元数据及语法正确性; 循环遍历SqlNodeList得到对应SqlKind 信息, 通过枚举SqlKi nd得到数据输入 源及输出源表。 8.根据权利要求7所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 所述通 过枚举SqlKind得到数据输入源及输出源表的方法为: 循环遍历SqlNodeList, 提取 SqlKind, 将SqlKind为INSERT, EXPLICIT_TABLE及WITH_ITEM类型的数据放入集合中, 剔除 SqlKind为EXPLICIT_TABLE中表名为WITH_ITEM中的数据, 最终得到数据输入源及输出源 表。 9.根据权利要求7所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 所述验 证Flink SQL元数据及语法正确性操作为: 通过创建Apache  calcite, 在其config中使用 Flink SQL语法验证Flink  SQL建表语句及SQL  Query语法正确性; 将Flink  SQL表注册到 Flink Stream Table Environment中, 通过Stream  Table Environment验证SQL  Query元 数据。 10.根据权利 要求1所述的基于Flink  SQL实现元数据管理的方法, 其特征在于, 还包括 步骤S5: 将校验结果发送至可视化界面进行展示。权 利 要 求 书 1/1 页 2 CN 115114299 A 2基于Flink  SQL实现元数据管理的方 法 技术领域 [0001]本发明涉及数据处理技术领域, 尤其涉及一种基于Flink  SQL实现元数据管理的 方法。 背景技术 [0002]随着越来越多的任务迁入Flink, 对于系统流程的安全性及操作 复杂度有了更高 的要求, 目前Flink  SQL需要单独在作业中定义Flink  SQL表元数据信息, 过程繁琐, 无法将 表持久化, 并且会暴露数据源敏感信息, 如账号名、 密码等。 因此, 如何能屏蔽敏感信息并实 现一次表定义多次引用就显得十分有必要了 。 [0003]名词解释: [0004]Flink: Apache  Flink是一个框架和分布式处理引擎, 用于对无界和有界数据流进 行有状态计算。 Flink被设计在所有常见的集群环 境中运行, 以内存执行速度和任意规模来 执行计算; [0005]Flink SQL表: Flink  SQL表提供对存储在外部系统(例如数据库、 键值存储、 消息 队列或文件系统)中的数据的访问。 Flink  SQL程序可以通过表连接到其他外部系统, 用于 读取和写入批处理和流式表。 Flink  SQL表是随时间变化的。 可以像查询静态批处理表 一样 查询它们。 查询Flink  SQL表将生成一个不会终止的连续查询, 最终将结果生成一个Flink   SQL结果表, 查询不断更新结果表, 以反映输入表上的变动。 本质上, Flink  SQL表上的连续 查询类似于 定义物理视图的查询。 [0006]Flink SQL作业: Flink  SQL为Flink的顶级API。 Flink  SQL作业是一种由用户编写 SQL开发Flink作业的方式, 用户通过SQL可以快速实现业务逻辑。 创建Flink  SQL作业前, 需 要创建Flink  SQL作业对应的Flink  SQL表。 在一个Flink  SQL作业中可以定义多条标准化 SQL语句。 [0007]数据源元数据: 又称中介数据、 中继数据, 为描述数据的数据, 主要是描述数据属 性的信息 。 [0008]CDC: CDC是一组用于Apache  Flink的源连接器, 使用变更数据捕获(CD C)从不同数 据库获取变更。 CDC将Debezium集成为捕获数据更改的引擎。 总 体来说CDC是用来实时监控 数据库数据并将数据 发送到Flink程序中, 因此只能将CDC表作为输出表无法作为输入表, 目前支持CDC的数据库有MySQ L、 Oracle、 Mo ngo dB、 PostgreSQ L及SqlServer。 [0009]Watermark: watermark是Flink为了处理事件时间窗口计算提出的一种机制, 本质 上就是一个时间戳, 代表着比这个时间早的事件已经全部进入到相 应的窗口, 后续不会再 有比这个时间小的事件出现, 基于这个前提我们才有 可能将事件时间窗口视为完整并触发 窗口的计算。 [0010]calcite: Apache  calcite是一个动态数据管理框架, 提供了标准的SQL语言、 多种 查询优化和连接各种数据源的能力, 将数据存 储及管理的能力留给引擎自身实现。说 明 书 1/7 页 3 CN 115114299 A 3

PDF文档 专利 基于Flink SQL实现元数据管理的方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Flink SQL实现元数据管理的方法 第 1 页 专利 基于Flink SQL实现元数据管理的方法 第 2 页 专利 基于Flink SQL实现元数据管理的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。