全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210934790.5 (22)申请日 2022.08.04 (71)申请人 国网信息通信产业 集团有限公司 地址 102211 北京市昌平区未来科技城北 区国网智能电网研究院内C座 4层 (72)发明人 李温静 张楠 谢可 刘彩  柯华强 王金发 郭文静 陈婷  梅昕苏 陈智鹏 肖钧浩  (74)专利代理 机构 济南舜源专利事务所有限公 司 37205 专利代理师 张营磊 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/242(2019.01) G06F 16/248(2019.01)G06F 16/22(2019.01) G06F 16/25(2019.01) G06F 16/27(2019.01) (54)发明名称 基于Spark平台的电力物联网数据检索方 法、 系统及设备 (57)摘要 本申请公开了一种基于Spar k平台的电力物 联网数据检索方法、 系统及设备, 主要涉及电力 物联网数据检索技术领域, 用以解决现有的电力 物联网运行中的数据检索方案检索时间较长和 消耗内存较大, 存在集中地不断检索海量数据的 负担。 包括: S1: 基于接收到的查询数据, 获得数 据检索语句; S2: 在HIVE中创建包含检索数据的 Dataframe, 进而通过SparkContext实例创建一 个RDD; S3: 判断RDD的聚集维度是否小于 Dataframe的总列数; 当小于总列数时, 将RDD存 入HBase中; 当大于或等于总列数时, 通过Spark 算子和BUC算法, 将剪枝处理后的RDD存入HBase 中; S4: 将HBase中的RDD数据返回给用户。 本申请 通过上述方法实现了以较短的时间和较少的内 存消耗成功检索到数据, 摆脱了集中地不断检索 海量数据的负担 。 权利要求书2页 说明书5页 附图2页 CN 115374153 A 2022.11.22 CN 115374153 A 1.一种基于Spark平台的电力物联网数据检索方法, 其特 征在于, 所述方法包括: S1: 基于接收到的查询数据, 获得 数据检索语句; S2: 获取所述数据检索语句 在HBase中对应的检索 数据, 在HIVE中创建包含所述检索 数 据的Dataframe, 进 而通过SparkCo ntext实例创建一个RD D; S3: 判断所述RDD的聚集维度是否小于Dataframe的总列数; 当小于总列数时, 将RDD存 入HBase中; 当大于或等于总列数时, 通过Spark算子和BUC算法, 将剪枝处理后的RDD存入 HBase中; S4: 将HBase中的RD D数据返回给用户。 2.根据权利要求1所述的基于Spark平台的电力物联网数据检索方法, 其特征在于, 数 据检索语句包 含若干子检索语句; 获取所述数据检索语句在HBase中对应的检索数据, 在HIVE中创建包含所述检索数据 的Dataframe, 具体包括: 在确定子检索语句中指定了数据表与检索对应的表头名时, 根据子检索语句, 获取的 第一表头数量和表头名对应的第一列数据; 在确定子检索语句中指定了数据表与全部的表头名时, 根据所述数据表的列数, 获取 的第二表头数量和数据表对应的第二列数据; 根据所述第 一表头数量和所述第 二表头数量, 确定用户查询数据对应的总列 数和表头 数据; 根据所述第一列数据和第二列数据, 确定检索数据; 基于所述总列数、 表头数据和检索数据, 在HIVE中创建Dataframe。 3.根据权利要求1所述的基于Spark平台的电力物联网数据检索方法, 其特征在于, 通 过SparkCo ntext实例创建一个RD D, 具体包括: 在检测到所述检索数据为集合时, 调用Spar kContext实例中的parallelize()方法, 根 据检索数据创建一个RD D; 在检测到所述检索数据为本地文件或HDFS文件时, 调用SparkContext实例中的 textFile()方法, 根据检索数据创建一个RD D。 4.根据权利要求1所述的基于Spark平台的电力物联网数据检索方法, 其特征在于, 当 小于总列数时, 将RDD存入HBase中; 当大于或等于总列数时, 通过Spark算子和BUC算法, 将 剪枝处理后的RD D存入HBase中, 具体包括: 判断RDD的聚集维度是否为1; 若为1, 则使用Spark中的groupby算子统计RDD中每个维度数据出现的次数; 将出现次 数大于预设阈值的维度数据作为RDD数据存入Hbase; 通过BUC算法将出现次数小于或等于 预设阈值的维度数据剪枝并丢弃; 若不为1, 则对RDD中 的维度数据进行合 并, 并使用Spark中groupby算子和count算子对 合并结果进行分组并统计次数; 将出现次数大于预设阈值的合并结果作为RDD数据存入 HBase。 5.根据权利要求4所述的基于Spark平台的电力物联网数据检索方法, 其特征在于, 所 述方法还 包括: 通过BUC算法将出现次数小于或等于预设阈值的合并结果剪枝并丢弃, 以更新RD D;权 利 要 求 书 1/2 页 2 CN 115374153 A 2通过更新后的RDD, 重复步骤S3, 直至存在小于总列数的RDD或出现次数大于预设阈值 的维度数据或出现次数 大于预设阈值的合并结果。 6.一种基于Spark平台的电力物联网数据检索系统, 其特 征在于, 所述系统包括: 创建模块, 用于基于接收到的查询数据, 获得数据检索语句; 还用于获取所述数据检索 语句在HBase中对应的检索数据, 在HIVE中创建包含所述检索数据的Dataframe, 进而通过 SparkContext实例创建一个RD D; 存入模块, 用于判断所述RDD的聚集维度是否小于Dataframe的总列数; 当小于总列数 时, 将RDD存入HBase中; 当大于或等于总列数时, 通过Spark算子和BUC算法, 将剪枝处理后 的RDD存入HBase中; 返回模块, 用于将HBase中的RD D数据返回给用户。 7.根据权利要求6所述的基于Spark平台的电力物联网数据检索系统, 其特征在于, 所 述创建模块还 包括RDD创建单元; 所述RDD创建单元, 用于在检测到所述检索数据为集合时, 调用SparkContext实例中的 parallelize()方法, 根据检索数据创建一个RDD; 在检测到所述检索数据为本地文件或 HDFS文件时, 调用SparkCo ntext实例中的textFi le()方法, 根据检索数据创建一个RD D。 8.一种基于Spark平台的电力物联网数据检索设备, 其特 征在于, 所述设备包括: 处理器; 以及存储器, 其上存储有可执行代码, 当所述可执行代码被执行时, 使得所述处理器执 行如权利要求1 ‑5任一项所述的一种基于Spark平台的电力物联网数据检索方法。权 利 要 求 书 2/2 页 3 CN 115374153 A 3

PDF文档 专利 基于Spark平台的电力物联网数据检索方法、系统及设备

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Spark平台的电力物联网数据检索方法、系统及设备 第 1 页 专利 基于Spark平台的电力物联网数据检索方法、系统及设备 第 2 页 专利 基于Spark平台的电力物联网数据检索方法、系统及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。