created_date: 2024-12-1
modified_date: 2024-12-2
Comments: 和[[KIVI]]独立同步发现KV键值的异常分布情况
2024-12-1
基于 RoPE 后键异常值消失的现象,发现应该在进行 RoPE 操作前对键矩阵进行 per-channel 的量化,和 KIVI 是平级的工作。
现象如下图,分别是 pre-RoPE 、post-RoPE;第三图是 value 矩阵的样式,没有显示出明显的异常分布。
内核和卸载的过程省略,其他的步骤和 KIVI 类似
传统的 k-means 算法步骤如下:
和 KIVI 的核心观察结果类似,不过没有使用分组量化,而是离线使用校准的数据减少 Key 的精度损失。