aliases:
- Energy-Efficient Neural Network Accelerator Based on Outlier-Aware Low-Precision Computation
created_date: 2024-11-28
modified_date: 2024-11-29
Comments: 基于异常值维持高精度,非异常值量化低精度设计的加速器
2024-11-29
OLAccel 对异常激活进行稀疏高精度计算,同时对大多数激活进行密集低精度计算,两者并行进行。
是加速器,属于硬件部署设计
即使只有 1% 的异常值,处理异常值的性能开销也可能很大。OLAccel 通过以下两种新颖的解决方案来解决这个问题:异常值 PE 和异常值 PE 组,并通过支持稀疏和密集数据结构。
这是因为,在 PE 组中,每四个激活进行一次零激活跳过操作,同时消耗一个时钟周期的恒定开销。因此,当存在大量零激活时,如在 Conv4 或 Conv5 中,通常情况下,零跳过操作在不进行计算的情况下,仅用于跳过四个连续的零激活,消耗周期。
在本文中,我们提出了一种名为 OLAccel 的硬件加速器。它实现了异常值感知量化,为大部分数据提供细粒度量化,同时保持重要异常值的精度。OLAccel 基于 4 位 MAC 单元,对大部分数据执行 4 位密集计算。为了高效处理高精度异常值,它在 PE 组和集群级别具有两种机制。
配备异常值 MAC 单元的 PE 组在不增加周期的情况下执行单个异常值权重的计算,仅在需要处理多个异常值权重时产生周期开销。异常值 PE 组使用高精度 MAC 单元执行异常值激活的计算。正常和异常值 PE 组的局部和累积以流水线方式进行,以避免一致性问题。
我们的实验表明,与最先进的 16 位和 8 位零感知加速器相比,OLAccel 在 AlexNet 上分别减少了 43.5% 和 27.0% 的能耗。它在 VGG-16(16/8 位时为 56.7%/36.3%) 和 ResNet-18(16/8 位时为 62.2%/49.5%) 上进一步降低了能耗,其中由于大型片上内存,第一卷积层导致的性能下降得到缓解,减少精度的能耗优势被放大。实验还表明,OLAccel 在大规模问题上具有可扩展潜力。