7b = 7billion = 7*10^9 个参数(1billion就是10亿就是9个0)

fp32精度,一个参数4byte,1G=10^9 byte, 所以 7b就占7*4GB。

fp16精度,一个参数2byte, 7b就占7*2GB

int8精度,一个参数1byte,  7b就占7*1GB

混合精度(fp16/32), 存储fp16精度+fp32精度 = 14GB +28GB = 42GB

此外,训练时占内存的还有梯度(和模型参数本身大小一样),优化器(如使用adam,是模型本身大小*2,因为要计算动量和方差)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐