LLM 参数量和内存占用计算
此外,训练时占内存的还有梯度(和模型参数本身大小一样),优化器(如使用adam,是模型本身大小*2,因为要计算动量和方差)7b = 7billion = 7*10^9 个参数(1billion就是10亿就是9个0)fp32精度,一个参数4byte,1G=10^9 byte, 所以 7b就占7*4GB。int8精度,一个参数1byte,7b就占7*1GB。fp16精度,一个参数2byte, 7b就占
·
7b = 7billion = 7*10^9 个参数(1billion就是10亿就是9个0)
fp32精度,一个参数4byte,1G=10^9 byte, 所以 7b就占7*4GB。
fp16精度,一个参数2byte, 7b就占7*2GB
int8精度,一个参数1byte, 7b就占7*1GB
混合精度(fp16/32), 存储fp16精度+fp32精度 = 14GB +28GB = 42GB
此外,训练时占内存的还有梯度(和模型参数本身大小一样),优化器(如使用adam,是模型本身大小*2,因为要计算动量和方差)

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)