全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211280671.9 (22)申请日 2022.10.19 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 吕敏 杨振宇 许胤龙 牛天洋  (74)专利代理 机构 合肥天明专利事务所(普通 合伙) 34115 专利代理师 谢中用 金凯 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 16/182(2019.01) (54)发明名称 一种基于异构环境感知的MapReduc e作业调 度方法 (57)摘要 本发明涉及分布式计算系统技术领域, 公开 了一种基于异构环境感知的MapReduc e作业调度 方法, 包含混合存储模式下数据的均衡放置、 节 点任务并发度评估、 多作业并发时的资源均衡分 配和作业内任务分配优先级划分等步骤; 能够有 效提升MapReduce作业的处理效率。 适用于底层 数据采用多种纠删码或纠删码和副本混合存储、 计算侧硬件异构和后台负载多变的Hadoop集群 环境中, 既能保证MapReduce框架的作业吞吐, 又 能保证每个作业的服务质量, 且保证集群节点存 储或计算设备资源占用的均衡性。 权利要求书2页 说明书6页 附图4页 CN 115357368 A 2022.11.18 CN 115357368 A 1.一种基于异构环境感知的MapReduce作业调度方法, 异构环境包括 同时运行着HDFS 分布式文件系统和YARN资源管理框架的集群, MapReduce作业中任务的数据以纠删码条带 形式存储在HDFS分布式文件系统中, 纠删码条带包括数据块和校验块, 数据块和校验块统 称为全部块, MapReduce作业调度方法包括以下步骤: 步骤一: 根据HDFS分布式文件系统各数据存储节点的数据传输性能, 对各数据存储节 点进行分组, 得到多个节点组; 将同一纠删码条带 的全部块放在属于同一节点组的数据存 储节点中, 以各节点组内数据存储节点上存储的全部块的平均数量来表征节点组的存储占 用情况, 通过将节点组的存储占用情况进行升序遍历的方式为纠删码条带的存储位置选 址; 通过将节点组内各存储节点上 的数据块与全部块的比例进行升序遍历的方式, 为该节 点组内纠删码条带的数据块选取存储位置; 通过将节点组内各存储节点上的校验块与全部 块的比例进行升序遍历的方式, 为该节点组内纠删码条 带的校验块选取存 储位置; 步骤二: 根据YARN资源管理框架各计算节点的硬件信息, 得到计算节点当前的弹性可 用计算单元数量 , 将一个MapReduce作业的各任务按照各计算单元内的弹性可用 计算单元的数量比分配到各计算单 元中; MapReduce作业包括Map任务和Reduce任务, 步骤三: 步骤二中, 在HDFS分布式文件系统中选取Map任务时, 根据各节点组的数据传 输性能, 按比例选择位于各节 点组内的以纠删码条带形式存储的Map任务数量; Reduce任务 在所有Map 任务执行结束后再执行; 执行Reduce任务时, 根据各计算节 点中当前的弹性可用 计算单元数量比, 将Reduce任务分配到各计算单 元中。 2.根据权利要求1所述的基于异构环境感知的MapReduce作业调度方法, 其特征在于: 步骤一中, 集群中各数据存储节点收集自身的磁盘 顺序读能力 、 磁盘顺序写能力 , 以及网络上行带宽 和网络下行带宽 , 每隔固定时间分析数据存储节点自 身的历史负载, 将数据存储节点磁盘大于设定时间中的负载峰值作为长期磁盘后台负载 , 将数据存储节点网络 大于设定时间中的上行负载峰值和下行负载峰值 分别作为网 络传输的长期上 行后台负载 、 长期下行后台负载 ; 步骤一中数据存储节点 的数据传输性能包括磁盘顺序读能力 、 磁盘顺序写 能力 、 网络上行带宽 、 网络下行带宽 、 长期磁盘后台负载 、 长期 上行后台负载 、 长期下行后台负载 ; 根据节点分组阈值θ, 依照各数据存储节点 的数据传输性能高低将数据存储节点 划分到对应的节点组G中: 根据上述计算方式将集群中的各存储节点根据性能分别划分到N个节点组 中;其中i为数据存储节点序号, j为节点组序号, 为数据存储节点的 数据读取性能, 为数据存 储节点的数据写入性能, , 。 3.根据权利要求1所述的基于异构环境感知的MapReduce作业调度方法, 其特征在于: 步骤二中, 每个计算节点周期性采集自身的CPU实时占用率 、 内存实时占用率权 利 要 求 书 1/2 页 2 CN 115357368 A 2, 并结合Hadoop集群默认配置的可用CPU核心数 和内存最大可用容量 , 以及节点CPU、 内存的硬件信息, 对各计算节点当前的弹性可用计算单元EAC的数量 进行计算: 其中, 为保证计算节点CPU性能所允许的最大任务并发度: 为保证计算节点内存性能所允许的最大任务并发度: 、 分别为计算节点的CPU物理核心数和内存容量, 是每个任务所 需的内存资源上限。 4.根据权利要求1所述的基于异构环境感知的MapReduce作业调度方法, 其特征在于, 还包括多MapReduce作业并发时的资源均衡分配策略: 某一时间段内队列中MapReduce作业 为 , , 则作业 各分配 的集群资源; 其中集群资源为 各计算节点当前的弹性可用计算单 元数量之和。权 利 要 求 书 2/2 页 3 CN 115357368 A 3

PDF文档 专利 一种基于异构环境感知的MapReduce作业调度方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于异构环境感知的MapReduce作业调度方法 第 1 页 专利 一种基于异构环境感知的MapReduce作业调度方法 第 2 页 专利 一种基于异构环境感知的MapReduce作业调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。