aliases:
  - Efficient and Affordable Post-Training Quantization for Large-Scale Transformers
created_date: 2024-11-20
modified_date: 2024-11-26

2024-11-20

ZeroQuant 量化方案

采用分组量化和 per-token 量化的一个机制

将 INT8 PTQ 应用于 BERT/GPT-3 模型会导致准确性显著下降。关键的挑战是 INT8 的表示无法完全捕获权重矩阵中不同行和不同激活 Token 的不同数值范围。解决这个问题的一种方法是对权重矩阵（激活）使用 group-wise（token-wise）量化。

(1) 一种对硬件友好的细粒度量化方案,适用于权重和激活;( 2) 一种新颖的经济实惠的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3) 一个高度优化的量化系统后端支持,以消除量化/去量化开销。

Pasted image 20241126212030.webp