2024-11-20

ZeroQuant 量化方案

采用分组量化per-token 量化的一个机制

将 INT8 PTQ 应用于 BERT/GPT-3 模型会导致准确性显著下降。关键的挑战是 INT8 的表示无法完全捕获权重矩阵中不同行和不同激活 Token 的不同数值范围。解决这个问题的一种方法是对权重矩阵(激活)使用 group-wise(token-wise)量化

2024-11-26

提出的新颖点

(1) 一种对硬件友好的细粒度量化方案,适用于权重和激活;( 2) 一种新颖的经济实惠的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3) 一个高度优化的量 化系统后端支持,以消除量化/去量化开销。

LKD:逐层的知识蒸馏

Pasted image 20241126212030.webp