图说GPT网络结构（参数量与计算量估计）

实际使用时，我们会碰到各种网络变体，各种配置或各种跑法，另外还可能需要回答一些更细节具体的问题，比如KV Cache节省了多少计算量，需要额外占用多少memory，把某层分布式计算需要增加多少通信量，或者MQA/GQA相比传统的MHA可以节省多少memory等等。在模型的优化时，我们经常需要一些信息，诸如特定配置的模型计算需要多少compute与memory资源，计算与数据传输大概需要多长时间等。

ariesjzj

2686人浏览 · 2024-09-15 09:07:17

ariesjzj · 2024-09-15 09:07:17 发布

现在AI领域的主流模型几乎都是Transformer网络架构衍生而来。大热的LLM中的生成类模型很多都是来自于Transformer的变体，即decoder only架构。而GPT就是该类中的经典模型。尽管现在变体甚多，但大多没有根本性地改变其套路。

为了阐述方便，首先约定一些符号：

符号	含义
b	Batch size
L	Transformer layer层数
s	Sequence length
n	Attention head个数
h	Hidden size，或embedding dim
d	每个head的hidden size，与前两者有关系 $h = n d$
V	Vocabulary size
P	最大sequence length

在模型的优化时，我们经常需要一些信息，诸如特定配置的模型计算需要多少compute与memory资源，计算与数据传输大概需要多长时间等。这就要求我们对网络中的一些量（如参数量，计算量，内存使用量等）进行一些粗略估计。基于这些估计，还可以得到这些量之间的大致关系。如一个transformer layer的参数量约为 $12 h ^ 2 + 13 h$ ，计算量约为 $24 b s h^2 + 4 b h s^2$ 。这意味着，在 $h$ 远大于 $s$ 的情况下，计算量与参数量大约是两倍关系。而Backward的计算量又约是Forward计算量的两倍（因需要对输入与权重都计算梯度）。由于transformer layer是网络中参数量（除embedding外）与计算量的主要贡献者。因此，计算量与除embedding外参数量之间有那个著名的公式 $\approx 6 N$ 。

但是，诸如这些都是general的结论。实际使用时，我们会碰到各种网络变体，各种配置或各种跑法，另外还可能需要回答一些更细节具体的问题，比如KV Cache节省了多少计算量，需要额外占用多少memory，把某层分布式计算需要增加多少通信量，或者MQA/GQA相比传统的MHA可以节省多少memory等等。而只有了解了那些估计是怎么来的，才能够更加灵活地运用。

下面以经典的GPT2模型为例，在其网络结构上标注了各操作的shape，并进行参数量和计算量估计。
Prefill阶段：
在这里插入图片描述
Generation阶段：