【笔记】Mixture-of-Depths(MoD),改变了以往Transformer计算模式
在的大模型训练和推理中,有很多计算是没必要的。比如预测下一个句子很难,但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源,那么后者明显浪费了。它在输入序列中的特定位置动态分配FLOPs(运算次数或计算资源),优化不同层次的模型深度中的分配。通过限制给定层的自注意力和MLP计算的token数量,迫使神经网络学会主要关注真正重要的信息。MOD 通过动态分配大模型中的计算资源,跳过一些不必要
·
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)