LLM 参数量和内存占用计算

此外，训练时占内存的还有梯度（和模型参数本身大小一样），优化器（如使用adam，是模型本身大小*2，因为要计算动量和方差）7b = 7billion = 7*10^9 个参数（1billion就是10亿就是9个0）fp32精度，一个参数4byte，1G=10^9 byte, 所以 7b就占7*4GB。int8精度，一个参数1byte，7b就占7*1GB。fp16精度，一个参数2byte， 7b就占

muamuamuam

1364人浏览 · 2024-02-15 18:43:09

muamuamuam · 2024-02-15 18:43:09 发布

7b = 7billion = 7*10^9 个参数（1billion就是10亿就是9个0）

fp32精度，一个参数4byte，1G=10^9 byte, 所以 7b就占7*4GB。

fp16精度，一个参数2byte， 7b就占7*2GB

int8精度，一个参数1byte， 7b就占7*1GB

混合精度（fp16/32），存储fp16精度+fp32精度 = 14GB +28GB = 42GB

此外，训练时占内存的还有梯度（和模型参数本身大小一样），优化器（如使用adam，是模型本身大小*2，因为要计算动量和方差）

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

cover

KingbaseES数据库：医疗信创潮涌沅江，国产化信创打造医疗新质生产力

DAMO开发者矩阵

cover

告别迁移焦虑：金仓KDMS V4带你轻松搞定数据库国产化替代

DAMO开发者矩阵

cover

KingbaseES数据库在常德二院全栈国产化信创中产生新质生产力,医疗信创的部署如何实现，如何操作？

DAMO开发者矩阵

所有评论(0)

查看更多评论

muamuamuam

@major_in_data_

已为社区贡献1条内容