专利基于Spark平台的电力物联网数据检索方法、系统及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210934790.5 (22)申请日 2022.08.04 (71)申请人国网信息通信产业集团有限公司地址 102211 北京市昌平区未来科技城北区国网智能电网研究院内C座 4层 (72)发明人李温静　张楠　谢可　刘彩　柯华强　王金发　郭文静　陈婷　梅昕苏　陈智鹏　肖钧浩　 (74)专利代理机构济南舜源专利事务所有限公司 37205 专利代理师张营磊 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/242(2019.01) G06F 16/248(2019.01)G06F 16/22(2019.01) G06F 16/25(2019.01) G06F 16/27(2019.01) (54)发明名称基于Spark平台的电力物联网数据检索方法、系统及设备 (57)摘要本申请公开了一种基于Spar k平台的电力物联网数据检索方法、系统及设备，主要涉及电力物联网数据检索技术领域，用以解决现有的电力物联网运行中的数据检索方案检索时间较长和消耗内存较大，存在集中地不断检索海量数据的负担。包括： S1：基于接收到的查询数据，获得数据检索语句； S2：在HIVE中创建包含检索数据的 Dataframe，进而通过SparkContext实例创建一个RDD； S3：判断RDD的聚集维度是否小于 Dataframe的总列数；当小于总列数时，将RDD存入HBase中；当大于或等于总列数时，通过Spark 算子和BUC算法，将剪枝处理后的RDD存入HBase 中； S4：将HBase中的RDD数据返回给用户。本申请通过上述方法实现了以较短的时间和较少的内存消耗成功检索到数据，摆脱了集中地不断检索海量数据的负担。权利要求书2页说明书5页附图2页 CN 115374153 A 2022.11.22 CN 115374153 A 1.一种基于Spark平台的电力物联网数据检索方法，其特征在于，所述方法包括： S1：基于接收到的查询数据，获得数据检索语句； S2：获取所述数据检索语句在HBase中对应的检索数据，在HIVE中创建包含所述检索数据的Dataframe，进而通过SparkCo ntext实例创建一个RD D； S3：判断所述RDD的聚集维度是否小于Dataframe的总列数；当小于总列数时，将RDD存入HBase中；当大于或等于总列数时，通过Spark算子和BUC算法，将剪枝处理后的RDD存入 HBase中； S4：将HBase中的RD D数据返回给用户。 2.根据权利要求1所述的基于Spark平台的电力物联网数据检索方法，其特征在于，数据检索语句包含若干子检索语句；获取所述数据检索语句在HBase中对应的检索数据，在HIVE中创建包含所述检索数据的Dataframe，具体包括：在确定子检索语句中指定了数据表与检索对应的表头名时，根据子检索语句，获取的第一表头数量和表头名对应的第一列数据；在确定子检索语句中指定了数据表与全部的表头名时，根据所述数据表的列数，获取的第二表头数量和数据表对应的第二列数据；根据所述第一表头数量和所述第二表头数量，确定用户查询数据对应的总列数和表头数据；根据所述第一列数据和第二列数据，确定检索数据；基于所述总列数、表头数据和检索数据，在HIVE中创建Dataframe。 3.根据权利要求1所述的基于Spark平台的电力物联网数据检索方法，其特征在于，通过SparkCo ntext实例创建一个RD D，具体包括：在检测到所述检索数据为集合时，调用Spar kContext实例中的parallelize()方法，根据检索数据创建一个RD D；在检测到所述检索数据为本地文件或HDFS文件时，调用SparkContext实例中的 textFile()方法，根据检索数据创建一个RD D。 4.根据权利要求1所述的基于Spark平台的电力物联网数据检索方法，其特征在于，当小于总列数时，将RDD存入HBase中；当大于或等于总列数时，通过Spark算子和BUC算法，将剪枝处理后的RD D存入HBase中，具体包括：判断RDD的聚集维度是否为1；若为1，则使用Spark中的groupby算子统计RDD中每个维度数据出现的次数；将出现次数大于预设阈值的维度数据作为RDD数据存入Hbase；通过BUC算法将出现次数小于或等于预设阈值的维度数据剪枝并丢弃；若不为1，则对RDD中的维度数据进行合并，并使用Spark中groupby算子和count算子对合并结果进行分组并统计次数；将出现次数大于预设阈值的合并结果作为RDD数据存入 HBase。 5.根据权利要求4所述的基于Spark平台的电力物联网数据检索方法，其特征在于，所述方法还包括：通过BUC算法将出现次数小于或等于预设阈值的合并结果剪枝并丢弃，以更新RD D；权　利　要　求　书 1/2 页 2 CN 115374153 A 2通过更新后的RDD，重复步骤S3，直至存在小于总列数的RDD或出现次数大于预设阈值的维度数据或出现次数大于预设阈值的合并结果。 6.一种基于Spark平台的电力物联网数据检索系统，其特征在于，所述系统包括：创建模块，用于基于接收到的查询数据，获得数据检索语句；还用于获取所述数据检索语句在HBase中对应的检索数据，在HIVE中创建包含所述检索数据的Dataframe，进而通过 SparkContext实例创建一个RD D；存入模块，用于判断所述RDD的聚集维度是否小于Dataframe的总列数；当小于总列数时，将RDD存入HBase中；当大于或等于总列数时，通过Spark算子和BUC算法，将剪枝处理后的RDD存入HBase中；返回模块，用于将HBase中的RD D数据返回给用户。 7.根据权利要求6所述的基于Spark平台的电力物联网数据检索系统，其特征在于，所述创建模块还包括RDD创建单元；所述RDD创建单元，用于在检测到所述检索数据为集合时，调用SparkContext实例中的 parallelize()方法，根据检索数据创建一个RDD；在检测到所述检索数据为本地文件或 HDFS文件时，调用SparkCo ntext实例中的textFi le()方法，根据检索数据创建一个RD D。 8.一种基于Spark平台的电力物联网数据检索设备，其特征在于，所述设备包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1 ‑5任一项所述的一种基于Spark平台的电力物联网数据检索方法。权　利　要　求　书 2/2 页 3 CN 115374153 A 3

专利 基于Spark平台的电力物联网数据检索方法、系统及设备

专利基于Spark平台的电力物联网数据检索方法、系统及设备