全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211429921.0 (22)申请日 2022.11.16 (71)申请人 江花集团有限公司 地址 276002 山东省临沂市兰山区李官镇 工业园 (72)发明人 姜杰 姜自成 姜开德 张学德  李萌萌 徐莹莹 莫言田 陈源  姜宝永 管绍朋  (74)专利代理 机构 北京专赢专利代理有限公司 11797 专利代理师 于刚 (51)Int.Cl. H04L 9/40(2022.01) H04L 9/30(2006.01) H04L 67/1097(2022.01)G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 21/60(2013.01) G06F 21/64(2013.01) (54)发明名称 一种基于数据湖的流式数据安全传输和存 储方法 (57)摘要 本发明涉及数据处理技术领域, 具体公开了 一种基于数据湖的流式数据安全传输和存储方 法。 本发明通过在多个 数据源端获取Event数据, 对Event数据进行过滤清洗, 得到关键 数据, 对关 键数据进行数据加密处理, 得到加密数据; 使用 Flume和Kafka构造多源 流式数据传输通道, 通过 多源流式数据传输通道, 对多个数据源端的加密 数据进行加密传输; 使用Hadoop构造数据湖, 并 基于LZO压缩技术, 对加密传输获得的加密数据 进行压缩和分区存储处理。 能够在数据源端对其 关键信息过滤并加密, 保证数据在传输过程中的 安全, 在不破坏数据原始结构的前提下对流式数 据安全高效存储, 且可以在减少存储空间占用的 同时, 增加数据的查询速度。 权利要求书2页 说明书8页 附图2页 CN 115499244 A 2022.12.20 CN 115499244 A 1.一种基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所述方法具体包括 以下步骤: 在多个数据源端获取Event数据, 对Event数据进行过滤清洗, 得到关键数据, 对关键数 据进行数据加密处 理, 得到加密数据; 使用Flume和Kafka构造多源流式数据传输通道, 通过多源流式数据传输通道, 对多个 数据源端的加密数据进行加密 传输; 使用Hadoop构造数据湖, 并基于LZO压缩技术, 对加密传输获得的加密 数据进行压缩和 分区存储处理。 2.根据权利要求1所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述在多个数据源端获取Ev ent数据, 对Ev ent数据进 行过滤清洗, 得到 关键数据, 对关键数据 进行数据加密处 理, 得到加密数据具体包括以下步骤: 实时获取多个数据源端的Event数据; 以流处理的方式, 将实时获取的Event数据进行 过滤清洗, 得到关键数据; 基于ECC轻量加密算法, 对关键数据进行 数据加密处 理, 得到加密数据。 3.根据权利要求2所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述基于ECC轻量加密算法, 对关键数据进行数据加密处理, 得到加密数据具体包括 以下步 骤: 基于ECC轻量加密算法, 生成椭圆曲线E, 获取椭圆群, 完成对加密算法的初始化; 计算出所有满足椭圆曲线E的点, 并得到基点 ; 将关键数据的字节信息映射到椭圆曲线E, 实现数据加密处 理, 得到加密数据。 4.根据权利要求3所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述椭圆曲线E 定义如式: 其中, 且 , 是所定义的有理数域, 是椭圆曲线方程的判别式, 其定义如式: 。 5.根据权利要求4所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述椭圆曲线E的简化公式为: 其中, , 是有限域, p是一个大质数。 6.根据权利要求1所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述使用Flume和Kafka构造多源流式数据传输通道, 通过多源流式数据传输通道, 对多个数 据源端的加密数据进行加密 传输具体包括以下步骤: 数据接收端的Flume代理服 务器生成私钥;权 利 要 求 书 1/2 页 2 CN 115499244 A 2数据接收端的Flume代理服 务器生成受信任密钥签名的证书; Flume接收端代理服 务器创建一个信任 存储库; 使用密钥和证书创建PKCS12文件来加密Flume通道, 对多个数据源端的加密数据进行 加密传输。 7.根据权利要求6所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述使用Flume和Kafka构造多源流式数据传输通道, 通过多源流式数据传输通道, 对多个数 据源端的加密数据进行加密 传输还包括: 使用多个Flume进程, 将多个数据源端对应的Event数据行收集归纳, 并集中存储到大 数据存储系统中。 8.根据权利要求6所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述使用Flume和Kafka构造多源流式数据传输通道, 通过多源流式数据传输通道, 对多个数 据源端的加密数据进行加密 传输还包括: 采用Kafka对接Flume通道传输的加密数据, 将加密数据序列化, 并在数据传输量较大 时, 实现数据的缓存。 9.根据权利要求6所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所 述使用Flume和Kafka构造多源流式数据传输通道, 通过多源流式数据传输通道, 对多个数 据源端的加密数据进行加密 传输具体为: 在加密数据传输 的中间阶段使用Kafka进行数据缓冲, 把加密数据暂存在Kafka中, 按 照既定的处 理速度, 对下游存 储系统进行 数据存储。 10.根据权利要求1所述的基于数据湖的流式数据安全传输和存储方法, 其特征在于, 所述使用Hadoop构造数据湖, 并基于LZO压缩技术, 对加密传输获得的加密数据进 行压缩和 分区存储处理具体包括以下步骤: 使用Hado op构建数据湖, 底层存 储采用HDFS; 以数据传输的时间戳作为分区命名, 对加密数据进行分区存 储; 使用Hadoop源码对LZO算法进行重新编译, 按照重新编译的LZO算法, 对分区存储的加 密数据进行压缩处 理。权 利 要 求 书 2/2 页 3 CN 115499244 A 3

PDF文档 专利 一种基于数据湖的流式数据安全传输和存储方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据湖的流式数据安全传输和存储方法 第 1 页 专利 一种基于数据湖的流式数据安全传输和存储方法 第 2 页 专利 一种基于数据湖的流式数据安全传输和存储方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。