aliases:
- Efficient and Affordable Post-Training Quantization for Large-Scale Transformers
created_date: 2024-11-20
modified_date: 2024-11-26
2024-11-20
采用分组量化和 per-token 量化的一个机制
将 INT8 PTQ 应用于 BERT/GPT-3 模型会导致准确性显著下降。关键的挑战是 INT8 的表示无法完全捕获权重矩阵中不同行和不同激活 Token 的不同数值范围。解决这个问题的一种方法是对权重矩阵(激活)使用 group-wise(token-wise)量化。
(1) 一种对硬件友好的细粒度量化方案,适用于权重和激活;( 2) 一种新颖的经济实惠的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3) 一个高度优化的量 化系统后端支持,以消除量化/去量化开销。