全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210641439.7 (22)申请日 2022.06.08 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 熊颖彤 翁楚良  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 9/445(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向基于采样的图神经网络训练的数 据加载系统 (57)摘要 本发明公开了一种面向基于采样的图神经 网络训练的数据加载系统, 该数据加载系统包 括: 邻居节点采样器和数据传输器; 邻居节点采 样器, 以深度学习框架Pytorch的Dataloader的 输出为输入, 利用采样算子采样邻居节点; 数据 传输器包含分类器、 特征聚合器和数据管理器三 部分; 分类器对邻居节点采样器输出的节点进行 分类, 分为共享节点和非共享节点; 数据管理器 在GPU中维持上一个mini ‑batch的特征数据, 同 时提供一种就地更新GPU中特征数据的方式; 特 征聚合器设计一个高性能的特征聚合算子从CP U 获取非共享节点的特征; 对于共享节点, 数据传 输器直接使用维持在GPU中的特征数据。 本发明 提高了采样效率, 减少了不必要的数据传输, 提 高了数据传输吞吐。 权利要求书1页 说明书6页 附图3页 CN 114895985 A 2022.08.12 CN 114895985 A 1.一种面向基于采样的图神经网络训练的数据加载系统, 其特 征在于, 包括: 邻居节点采样器和数据传输器, 其中: 所述数据传输器包括分类 器、 特征聚合器和数据管理器; 所述邻居节点采样器与数据传输器中的分类器相连, 利用采样算子采样得到当前 mini‑batch节点, 同时采用一种CSR数组存 储策略减少采样过程中的数据传输时延; 所述数据传输器中的分类器分别与邻居节点采样器和数据 管理器相连, 将邻居节点采 样器采样得到的节点进行分类, 分为共享节点和非共享节点; 所述数据传输器对不同类节点进行不同的处理: 对于共享节点, 直接使用GPU中维持的 特征数据, 对于非共享节点, 利用特 征聚合器获取其特 征数据; 所述数据传输器中的数据管理器在GPU中维持一块可变大小的内存空间保存上一个 mini‑batch的特征数据并在每次训练迭代过程中就 地更新该内存空间中的特 征数据。 2.如权利要求1所述的一种面向基于采样 的图神经网络训练的数据加载系统, 其特征 在于, 所述采样算子以每个节点的采样任务为基本单位开展并行采样, 输出采样后得到的 所有节点, 形成一个mi ni‑batch; 所述CSR数组存储策略, 是根据CSR数组大小将CSR分别存储于share  dmemory、 global   memory和CPU  memory中; 当CSR数组存放于CP U memory时, 邻居节点采样器使用零拷贝进 一 步减少数据传输时延。 3.如权利要求1所述的一种面向基于采样 的图神经网络训练的数据加载系统, 其特征 在于, 数据传输器中的分类器对邻居节点采样器输出 的节点进行分类, 采用倒排索引的方 式将当前mi ni‑batch中待获取 特征数据的节点分为两类: 共享节点和非共享节点; 所述分类器对于上一个mini ‑batch和当前mini ‑batch的节点建立倒排索引, 分别 记录 节点在两个mini ‑batch中的索引; 根据索引个数将当前mini ‑batch节点分类为共享节点和 非共享节点。 4.如权利要求1所述的一种面向基于采样 的图神经网络训练的数据加载系统, 其特征 在于, 所述数据传输器的特征聚合器, 首先利用零拷贝减少数据传输时延, 其次将 每个节点 的特征聚合任务视为并行 的基本单位展开并行加速; 针对单个节点的特征聚合, 内部以特 征维度为单位继续 开展并行。 5.如权利要求1所述的一种面向基于采样 的图神经网络训练的数据加载系统, 其特征 在于, 所述数据传输器的数据管理器在GPU中维持一块可变大小的内存空间保存上一个 mini‑batch的特征数据, 提供一种就地更新该特征数据的方式; 若当前mini ‑batch的节点 数多于上一个 mini‑batch的节 点数, 数据管 理器对GPU中维持的内存空间扩容, 反之则移除 多余的空间; 所述就地更新内存空间的方式在于将非共享节点的索引进行排序, 再分别替换GPU中 内存空间中的特 征数据。权 利 要 求 书 1/1 页 2 CN 114895985 A 2一种面向基于采 样的图神经 网络训练的数据加载系统 技术领域 [0001]本发明属于软件开发技术领域, 尤其涉及 一种面向基于采样的图神经网络训练的 数据加载系统。 背景技术 [0002]随着数据的不断增长, 数据间的关系愈加复杂, 图神经网络得到了广泛的关注。 不 同于传统的擅长处理欧式空间数据的深度神经网络和专门处理图数据的传统图计算, 图神 经网络专注于处理非欧空间数据, 将神经网络中的自动微分和传统图计算中的消息传递机 制相结合, 在图数据 处理上具有较好的效果, 并成功的应用在实际生产环境中, 例如, 社交 网络、 交通预测、 推荐系统等 等。 [0003]为了提升图神经网络的学习能力和解决图神经网络在处理大图面临的内存限制 问题, 基于采样的图神经网络被广泛研究。 主流的图采样方式可分为三类: 基于节点采样、 基于层采样和基于子图采样。 然而这些采样方法仅从数学角度考虑, 忽略了在系统中的运 行效率。 另一方面, 现有的深度学习 框架例如Pytorch、 TensorFlow等缺乏高效训练图神经 网络的能力, 学术界和工业界均不断提出图神经网络框架。 目前具有代表性的图神经网络 框架: DGL (DeepGraphLibrary) 、 P yG (Pytorch‑ Geometric) 、 AliGraph。 这些图神经网络框 架实现了众多的采样算法和图神经网络模型, 为部署设计图神经网络模型带来了便利。 通 常情况下, 实际生活中的图数据往往具有较大 的规模, 图神经网络框架面临着巨大 的计算 和存储压力。 基于采样的图神经网络很好的缓解了大规模图数据带来的存储压力。 在 网络 训练之前, 基于采样的图神经网络限制聚合邻居节点的范围以此减少图数据的规模, 从而 缓解了存储压力。 考虑到图数据中普遍存在的邻居爆炸 问题, 图神经网络的网络结构相比 于深度神经网络较小, 同时 随着GPU的算力不断增强, 数据加载包括数据传输成为了图神经 网络训练过程中的瓶颈 。 在分布式环境下, 数据加载瓶颈 愈加严重 。 [0004]数据加载瓶颈问题增加了图神经网络端到端的训练时间, 降低了整个图神经网络 系统的效率, 无法充分利用GPU资源。 为了提高数据加载效率, 现有的部分技术针对图神经 网络中的数据加载进 行了优化。 例如, DGL支持在GPU上的采样以此加速采样, 然而 此种采样 方法需要将整个图加载到GPU, 扩展性受到GPU显存容量的限制; Pytorch ‑Direct设计了一 种CPU和GPU统一的张量类型, 利用零拷贝技术直接从CPU端获取数据, 忽略了不同mini ‑ batch之间存在冗余的数据传输; Pagraph提前在GPU端缓存度高的节点减少CPU和GPU之间 冗余的数据传输, 而占用了部分珍贵的GPU显存资源; RBD充分利用不同mini ‑batch之间的 共享数据, 减少了冗余的数据传输, 而对于未被共享的节点数据仍然需要从CPU端获取, 同 样存在一定的数据传输开销; Torch ‑quiver采用缓存热数据的方式提升数据传输效率, 占 用了额外的GPU显存资源。 [0005]综上所述, 数据加载成为提升图神经网络训练效率的最大限制性因素。 现有的技 术在采样、 数据传输 分别进行了优化, 但是均存在其他方面的缺点, 图神经网络训练中的数 据加载需要 进一步优化。说 明 书 1/6 页 3 CN 114895985 A 3

.PDF文档 专利 一种面向基于采样的图神经网络训练的数据加载系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向基于采样的图神经网络训练的数据加载系统 第 1 页 专利 一种面向基于采样的图神经网络训练的数据加载系统 第 2 页 专利 一种面向基于采样的图神经网络训练的数据加载系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:02:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。