专利一种低片外传输带宽需求的卷积神经网络加速方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210430624.1 (22)申请日 2022.04.22 (71)申请人重庆邮电大学地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人张红升　甘济章　黄奎　刘挺　王玺　 (74)专利代理机构北京同恒源知识产权代理有限公司 1 1275 专利代理师廖曦 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/063(2006.01) G06F 15/78(2006.01) G06F 9/445(2018.01)G06F 9/38(2006.01) G06F 9/48(2006.01) G06F 9/30(2006.01) (54)发明名称一种低片外传输带宽需求的卷积神经网络加速方法 (57)摘要本发明涉及一种低片外传输带宽需求的卷积神经网络加速方法，属于传输技术领域。通过对基于“切片”调度策略的数据流进行复用性分析，在FPGA片上计算、存储、逻辑等资源的约束下，为卷积神经网络模型每一个卷积层设计单独的调度策略等方式，降低高吞吐量对传输带来的压力，避免有限的带宽成为系统整体性能的瓶颈，从而解决实际应用中访存拥塞的问题，提升卷积神经网络模型在FPGA平台上部署的适配的，扩宽其应用场景。本发明具备低成本、高集成度、硬件资源消耗低、结构简单、可靠性高、易于实现等优点，能有效的降低高吞吐量对传输带来的压力，避免有限的带宽成为系统整体性能的瓶颈，从而解决实际应用中访存拥塞的问题。权利要求书3页说明书8页附图4页 CN 114638347 A 2022.06.17 CN 114638347 A 1.一种低片外传输带宽需求的卷积神经网络加速方法，其特征在于：该方法包括：数据加载l oad、卷积计算co nv和数据写回store；根据DDR3传输理论带宽的计算公式： BandwidthDDR＝Core_frq ×Bus_bitw idth×Mult_factor/8bits 其中， Core_frq代表内存核心频率，其等于DDR3的数据频率除以8比特， Bus_bitwidth 代表内存总线位宽， 5CSEBA6芯片所支持的最大DDR3数据频率为800Mhz，所支持的总线位宽为32比特； Mult_factor 代表内存的倍增系数； DDR采用时钟脉冲上升、下降沿各传一次数据， 1个时钟信号传输2倍于SDRAM的数据，称为双倍速率S DRAM；它的倍增系数是2， DDR2采用时钟脉冲上升、下降支各传输一次数据的技术，每回预读4比特数据，是DDR的两倍，它的倍增系数是4， DDR3作为DDR2的改进，每回预读8比特数据，是DDR2的两倍， DDR的4倍，它的倍增系数是 8，通过下式： BandwidthDDR＝800Mb/8bits ×32bits×8bits/8bits 得到所选用的5CSEBA6芯片所支持的最大DDR侧传输带宽为3200Mhz；根据应用端卷积神经网络加速器的带宽计算公式： BandwidthAPP＝Data_frq ×Data_bitw idth/8bits 其中Data_frq代表应用端时钟频率， Data_bitwidth代表应用端数据位宽，带入当前设计数据总线频率15 0Mhz与位宽128bits： BandwidthAPP＝150Mhz×128bits/8bits 得到当前的数据加载所需带宽为240 0Mhz；数据写回所需带宽为240 0Mhz；为减少数据的传输带宽需求，将访存分为两个级别：片外访存和片上访存；构建当前数据调度策略的循环嵌套伪码，分析其中哪些数据流是在片外DDR访存，哪些数据流其中片上缓存访存；片外访存相较于片上访存，每次发起传输需要协议规定的握手信号，其时间和功耗开销更大，且占用有限的片外传输带宽；在每个对应输出通道切片Tm的外层循环t o嵌套中，利用输入数据的复用性，将一份输入特征图数据对应一份权重数据的调度策略，转换为一个输入特征图数据，对应若干个权重数据，减少因传输输入特征图数据而产生的片外访存的开销，降低片外传输带宽的需求；计算多份权重后会得到对应多个输出通道的输出特征图数据，在满足片上存储资源约束的情况下，选择适当的输入特征图数据复用率来控制每次卷积计算进程处理的权重份数，避免因产生过多的输出数据而超出片上缓存空间；转换数据调度策略后的上板，对输出特征图尺寸较小的层而言，其占用的片上缓存空间较小，每次从片外DDR3存储器中加载一份输入特征图数据与两份权重数据，利用一定的输入特征图数据复用性。 2.根据权利要求1所述的一种低片外传输带宽需求的卷积神经网络加速方法，其特征在于：所述卷积神经网络加速方法具体包括：引擎计算，用于处理加速器核心的卷积运算；片上缓存，用于缓冲从片外存储加载的输入特征图以及权重数；进程控制，用于控制单元用于控制各个模块的交互，操作进程的发起和停止；操作进程权　利　要　求　书 1/3 页 2 CN 114638347 A 2包括计算、加载和存储。 3.根据权利要求2所述的一种低片外传输带宽需求的卷积神经网络加速方法，其特征在于：所述引擎计算中，包括若干处理单元PE，每个处理单元包括Tn个乘法器，权重与输入特征图数据的乘法操作在输入通道切片维度上并行执行；每两个乘法器的乘积通过一个加法器相加，每两个加法器的和通过一个加法器相加，最终，将Tn个乘积累加为一个值，达到在输入通道上叠加的效果；所有的PE输入特征图数据都是相同，通过复用输入数据，不需要为每个PE的计算单独从DDR中加载数据，减少片外访存的开销。 4.根据权利要求2所述的一种低片外传输带宽需求的卷积神经网络加速方法，其特征在于：所述片上缓存中，将存储模块分为两个部分，分别为输入缓存和输出缓存，将引擎计算处理得到的输出特征图数据按照如下的方式映射到片上RAM中：将RAM的数据位宽设置为输出通道切片*数据精度，将输出特征图同一宽高位置处所有通道的数据拼接为一个输出结果，存入RAM中；将RAM的地址深度设置为输出特征图宽C ×高R，将输出特征图i行j列位置处的数据按照下式的地址映射方式存入RAM： data_address＝j*C+i 为输入数据开辟存储空间，将输入特征图与权重数据按照输入输出通道的宽和高，依次存入存入输入缓存中；每个输出特征图数据都由与之相对应的权重和输入特征图数据计算得到，通过片上的数据互联网络，按照输出特征图计算的顺序，从输入缓存中寻址取值；所有片上缓存采取双缓冲策略，保证在本次计算进程执行的过程中，同时从片外加载下一次计算所需的数据到片上，实现流水线的处理。 5.根据权利要求2所述的一种低片外传输带宽需求的卷积神经网络加速方法，其特征在于：所述卷积神经网络加速方法，具体分为以下几个步骤： (1)在初始时刻系统处于空闲状态ST_IDLE；接收到主机下发的开始命令之后，进入ST_ CONFIG状态；加速器首先开始配置卷积神经网络本层的模型参数，包括步长、过滤器尺寸和输入输出通道切片尺寸与特征图宽高尺寸，称为parameter_config操作；配置完成之后进入ST_FIRST_LOAD_0状态； (2)ST_FIRST_LOAD_0状态代表每个卷积层第一次数据加载操作，将DDR中第一个通道切片的输入特征图以及权重数据加载到片上输入缓存IRAM_0中，称为Load0， Load1同理；此状态只进行加载操作，不进行卷积以及写回DDR操作；待到数据加载完成，跳转到ST_FIRST_ LOAD_1状态； (3)ST_FIRST_LOAD_1状态代表首次发起Load1操作，同时发起卷积的任务，将已经加载到输入缓存TRAM_0的切片数据进行计算，并写入输出缓存ORAM_0中，称为Conv0操作， Conv1 同理，不进行写回D DR操作；完成数据加载以及计算后进入ST_LOAD_1状态； (4)进入ST_LOAD_0状态后，发起Conv1、 Load0以及将输出缓存ORAM_0的数据写回DDR，称为Store0操作， Store1同理，并对数据计数器增加本次Load操作传输的数据量；完成后跳转到ST_LOAD_1状态； (5)进入ST_LOAD_1状态后，发起Conv0、 Load1以及Store1操作；对数据计数器增加本次 Load操作传输的数据量，并判断是否已经加载过所有的数据，若是，则跳转到ST_LAST_CONV权　利　要　求　书 2/3 页 3 CN 114638347 A 3

专利 一种低片外传输带宽需求的卷积神经网络加速方法

专利一种低片外传输带宽需求的卷积神经网络加速方法