Mixture-of-Depths(MoD)

MOD 通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。

在的大模型训练和推理中,有很多计算是没必要的。比如预测下一个句子很难,但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源,那么后者明显浪费了。

链接

它在输入序列中的特定位置动态分配FLOPs(运算次数或计算资源),优化不同层次的模型深度中的分配。

通过限制给定层的自注意力和MLP计算的token数量,迫使神经网络学会主要关注真正重要的信息。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐