【ML】模型量化技术 | Cry̵̴̷̧̛͠stal P̷̢͢͢͜͝uNK's Blog

type

status

date

slug

summary

量化的目的

减少存储需求：

浮点数（FP32）占用的存储空间较大，量化后使用低位整数（如 Int4、Int8）可以显著降低模型的内存占用。

加速推理速度：

整数运算速度通常比浮点数运算快，尤其是在专门支持低精度计算的硬件（如 NVIDIA TensorRT、TPU、Apple Neural Engine 等）上，量化模型可以显著加速推理。

降低能耗：

在移动设备或其他边缘设备上运行大模型时，量化可以减少计算资源需求，从而降低功耗。

保持模型性能：

虽然量化会降低模型的精度，但通过先进的量化技术（如对权重和激活值的优化），可以做到性能几乎无损。

量化的常见方式

量化主要针对模型的权重和激活值，以下是几种常见的量化方法：

1. Post-Training Quantization (PTQ)：

在模型训练完成后，对模型进行量化处理。

优点：实现简单，适合不需要重新训练的场景。

缺点：可能会引入一定的精度损失。

2. Quantization-Aware Training (QAT)：

在训练阶段引入量化模拟，模型在训练时已经适应了低精度运算。

优点：量化后精度下降更小。

缺点：需要重新训练模型，增加了训练成本。

3. 动态量化（Dynamic Quantization）：

在推理过程中，动态地将激活值量化为低精度整数。

适合对激活值变化较大的模型。

4. 静态量化（Static Quantization）：

在推理前，将权重和激活值都提前量化。

需要对数据进行校准（Calibration），以找到最佳的量化范围。

量化精度类型

FP32（32位浮点数）：

默认的高精度表示方式，用于保存原始模型的权重和激活值。

存储和计算成本高。

FP16（16位浮点数）：

浮点精度的降低版本，依然保留浮点特性，同时减少了存储需求和计算成本。

在现代硬件（如 NVIDIA GPU 的 Tensor Cores）上支持较好。

Int8（8位整数）：

将浮点权重和激活值映射为 8 位整数。

是目前最常用的量化方法，能很好地平衡性能与精度。

Int4（4位整数）：

精度进一步降低，存储需求比 Int8 减半。

常用于极致优化的场景，虽然精度损失稍大，但在先进算法（如 AutoGPTQ）的支持下，精度损失可以控制在极小范围内。

二值量化（Binary Quantization）：

权重和激活值仅用 0 和 1 表示。

极大地减少了存储需求，但适用场景较为有限。

这里有一个例子。阿里的通义千问模型即有量化版本，能有客观的性能开销优化，同时几乎不影响性能，他使用了AutoGPTQ这款工具：

README.md · Qwen/Qwen-1_8B-Chat at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

https://huggingface.co/Qwen/Qwen-1_8B-Chat/blob/main/README.md

关于 AutoGPTQ

示例中提到的 AutoGPTQ 是一种先进的量化工具，基于 GPTQ（Gradient Post-Training Quantization）的改进。它主要用于大语言模型（LLM）的量化，支持 Int4 量化，并且能在保持模型几乎无损性能的情况下显著优化存储需求和推理速度。

Int4 量化的优点

存储需求更低：

Int4 量化将权重压缩为 4 位整数，存储需求比 FP32 减少约 8 倍，比 Int8 减少一半。

推理速度更快：

Int4 运算的计算复杂度更低，尤其是在支持低位整数运算的硬件上，速度提升显著。

几乎无损的模型效果：

AutoGPTQ 等工具通过先进的量化校准技术，确保量化后的模型在推理任务中的表现与原始模型几乎一致。

如何使用 Int4 量化模型

1. 环境要求

根据示例，使用 Int4 模型需要满足以下环境要求：

PyTorch 2.0 及以上版本。

Transformers 4.32.0 及以上版本。

安装 AutoGPTQ 库（可以通过 pip install autogptq）。

2. 加载 Int4 模型

以下是一个使用 Int4 量化模型的基本代码示例：

总结

大模型的量化是通过降低权重和激活值的精度（如 Int8 或 Int4）来减少存储需求和加速推理速度的一种优化技术。在示例中，Int4 量化借助 AutoGPTQ 工具实现，能够在几乎无损的模型效果下达到更低的存储需求和更高的推理效率，非常适合在资源受限的场景中部署大模型。