全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210430624.1 (22)申请日 2022.04.22 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人 张红升 甘济章 黄奎 刘挺  王玺  (74)专利代理 机构 北京同恒源知识产权代理有 限公司 1 1275 专利代理师 廖曦 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/063(2006.01) G06F 15/78(2006.01) G06F 9/445(2018.01)G06F 9/38(2006.01) G06F 9/48(2006.01) G06F 9/30(2006.01) (54)发明名称 一种低片外传输带宽需求的卷积神经网络 加速方法 (57)摘要 本发明涉及一种低片外传输带宽需求的卷 积神经网络加速方法, 属于传输技术领域。 通过 对基于“切片”调度策略的数据流进行复用性分 析, 在FPGA片上计算、 存储、 逻辑等资源的约束 下, 为卷积神经网络模型每一个卷积层设计单独 的调度策略等方式, 降低高吞吐量对传输带来的 压力, 避免有限的带宽成为系统整体性能的瓶 颈, 从而解决实际应用中访存拥塞的问题, 提升 卷积神经网络模型在FPGA平台上部署的适配的, 扩宽其应用场景。 本发明具备低成本、 高集成度、 硬件资源消耗低、 结构简单、 可靠性高、 易于实现 等优点, 能有效的降低高吞吐量对传输带来的压 力, 避免有限的带宽成为系统整体性能的瓶颈, 从而解决实际应用中访存拥塞的问题。 权利要求书3页 说明书8页 附图4页 CN 114638347 A 2022.06.17 CN 114638347 A 1.一种低片外传输带宽需求的卷积神经网络加速方法, 其特 征在于: 该 方法包括: 数据加载l oad、 卷积计算co nv和数据写回store; 根据DDR3传输理论带宽的计算公式: BandwidthDDR=Core_frq ×Bus_bitw idth×Mult_factor/8bits 其中, Core_frq代表内存核心频率, 其等于DDR3的数据频率除以8比特, Bus_bitwidth 代表内存总线位宽, 5CSEBA6芯片所支持的最大DDR3数据频率为800Mhz, 所支持的总线位宽 为32比特; Mult_factor 代表内存的倍增系数; DDR采用时钟脉冲上升、 下降沿各传一次数据, 1个时钟信号传输2倍于SDRAM的数据, 称 为双倍速率S DRAM; 它的倍增系数 是2, DDR2采用时钟脉冲上升、 下降支各传输一次数据的技术, 每回预读4比特数据, 是DDR的 两倍, 它的倍增系数 是4, DDR3作为DDR2的改进, 每回预读8比特数据, 是DDR2的两倍, DDR的4倍, 它的倍增系数是 8, 通过下式: BandwidthDDR=800Mb/8bits ×32bits×8bits/8bits 得到所选用的5CSEBA6芯片所支持的最大DDR侧传输带宽为3200Mhz; 根据应用端卷积 神经网络加速器的带宽计算公式: BandwidthAPP=Data_frq ×Data_bitw idth/8bits 其中Data_frq代表应用端时钟频率, Data_bitwidth代表应用端数据位宽, 带入当前设 计数据总线频率15 0Mhz与位宽128bits: BandwidthAPP=150Mhz×128bits/8bits 得到当前的数据加载 所需带宽为240 0Mhz; 数据写回所需带宽为240 0Mhz; 为减少数据的传输带宽需求, 将访存分为两个级别: 片外访存和片上访存; 构建当前数 据调度策略的循环嵌套伪码, 分析其中哪些数据流是在片 外DDR访存, 哪些数据流其中片上 缓存访存; 片外访存相较于片上访存, 每次发起传输需要协议规定的握手信号, 其时间和功耗开 销更大, 且占用有限的片 外传输带宽; 在每个对应输出通道切片Tm的外层循环t o嵌套中, 利 用输入数据的复用性, 将一份输入特征图数据对应一份权重数据的调度策略, 转换为一个 输入特征图数据, 对应若干个权重数据, 减少因传输输入特征图数据而产生的片外访存的 开销, 降低片外传输带宽的需求; 计算多份权重后会得到对应多个输出通道的输出特征图 数据, 在满足片上存储资源约束的情况下, 选择适当的输入特征图数据复用率来控制 每次 卷积计算进程处 理的权重份数, 避免因产生过多的输出 数据而超出片上缓存空间; 转换数据调度策略后的上板, 对输出特征图尺寸较小的层而言, 其占用的片上缓存空 间较小, 每次从片外DDR3存储器中加载一份输入特征图数据与两份权重数据, 利用一定的 输入特征图数据复用性。 2.根据权利要求1所述的一种低片外传输带宽需求的卷积神经网络加速方法, 其特征 在于: 所述卷积神经网络加速方法具体包括: 引擎计算, 用于处 理加速器核心的卷积运 算; 片上缓存, 用于缓冲从片外存 储加载的输入特 征图以及权 重数; 进程控制, 用于控制单元用于控制各个模块的交互, 操作进程的发起和停止; 操作进程权 利 要 求 书 1/3 页 2 CN 114638347 A 2包括计算、 加载和存 储。 3.根据权利要求2所述的一种低片外传输带宽需求的卷积神经网络加速方法, 其特征 在于: 所述引擎计算中, 包括若干处理单元PE, 每个处理单元包括Tn个乘法器, 权重与输入 特征图数据的乘法操作在输入通道切片维度上并行 执行; 每两个乘法器的乘积通过一个加法器相加, 每两个加法器的和通过一个加法器相加, 最终, 将Tn个乘积累加为 一个值, 达 到在输入通道上叠加的效果; 所有的PE输入特征图数据都是相同, 通过复用输入数据, 不需要为每个PE的计算单独 从DDR中加载 数据, 减少片外访存的开销。 4.根据权利要求2所述的一种低片外传输带宽需求的卷积神经网络加速方法, 其特征 在于: 所述片上缓存中, 将存储模块分为两个部分, 分别为输入缓存和输出缓存, 将引擎计 算处理得到的输出 特征图数据按照如下的方式映射到片上RAM中: 将RAM的数据位宽设置为输出通道切片*数据精度, 将输出特征图同一宽高位置处所有 通道的数据拼接为 一个输出 结果, 存入RAM中; 将RAM的地址深度设置为输出特征图宽C ×高R, 将输出特征图i行j列位置处的数据按 照下式的地址映射方式存 入RAM: data_address=j*C+i 为输入数据开辟存储空间, 将输入特征图与权重数据按照输入输出通道的宽和高, 依 次存入存入输入缓存中; 每个输出特征图数据都由与之相对应的权重和输入特征图数据计 算得到, 通过片上的数据互联网络, 按照输出 特征图计算的顺序, 从输入缓存中寻址取值; 所有片上缓存采取双缓冲策略, 保证在本次计算进程执行的过程中, 同时从片外加载 下一次计算所需的数据到片上, 实现流水线的处 理。 5.根据权利要求2所述的一种低片外传输带宽需求的卷积神经网络加速方法, 其特征 在于: 所述卷积神经网络加速方法, 具体分为以下几个步骤: (1)在初始时刻系统处于空闲状态ST_IDLE; 接收到主机下发的开始命令之后, 进入ST_ CONFIG状态; 加速器首先开始配置卷积神经网络本层的模 型参数, 包括步长、 过滤器尺寸和 输入输出通道切片尺寸与特征图宽高尺寸, 称为parameter_config操作; 配置完成之后进 入ST_FIRST_LOAD_0状态; (2)ST_FIRST_LOAD_0状态代表每个卷积层第一次数据加载操作, 将DDR中第一个通道 切片的输入 特征图以及权重数据加载到片上输入缓存IRAM_0中, 称为Load0, Load1同理; 此 状态只进行加载操作, 不进行卷积以及 写回DDR操作; 待到数据加载完成, 跳转到ST_FIRST_ LOAD_1状态; (3)ST_FIRST_LOAD_1状态代表首次发起Load1操作, 同时发起卷积的任务, 将已经加载 到输入缓存TRAM_0的切片数据进行计算, 并写入输出缓存ORAM_0中, 称为Conv0操作, Conv1 同理, 不进行写回D DR操作; 完成数据加载以及计算后进入ST_LOAD_1状态; (4)进入ST_LOAD_0状态后, 发起Conv1、 Load0以及将输出缓存ORAM_0的数据写回DDR, 称为Store0操作, Store1同理, 并对 数据计数器增加本次Load操作传输的数据量; 完成后跳 转到ST_LOAD_1状态; (5)进入ST_LOAD_1状态后, 发起Conv0、 Load1以及Store1操作; 对数据 计数器增加本次 Load操作传输的数据量, 并判断是否已经加载过所有的数据, 若是, 则跳转到ST_LAST_CONV权 利 要 求 书 2/3 页 3 CN 114638347 A 3

.PDF文档 专利 一种低片外传输带宽需求的卷积神经网络加速方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种低片外传输带宽需求的卷积神经网络加速方法 第 1 页 专利 一种低片外传输带宽需求的卷积神经网络加速方法 第 2 页 专利 一种低片外传输带宽需求的卷积神经网络加速方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:58:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。