【笔记】Mixture-of-Depths（MoD），改变了以往Transformer计算模式

在的大模型训练和推理中，有很多计算是没必要的。比如预测下一个句子很难，但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源，那么后者明显浪费了。它在输入序列中的特定位置动态分配FLOPs（运算次数或计算资源），优化不同层次的模型深度中的分配。通过限制给定层的自注意力和MLP计算的token数量，迫使神经网络学会主要关注真正重要的信息。MOD 通过动态分配大模型中的计算资源，跳过一些不必要

deardao

823人浏览 · 2024-04-27 10:15:45

deardao · 2024-04-27 10:15:45 发布

目录

- Mixture-of-Depths（MoD）

Mixture-of-Depths（MoD）

MOD 通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。

在的大模型训练和推理中，有很多计算是没必要的。比如预测下一个句子很难，但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源，那么后者明显浪费了。

它在输入序列中的特定位置动态分配FLOPs（运算次数或计算资源），优化不同层次的模型深度中的分配。

通过限制给定层的自注意力和MLP计算的token数量，迫使神经网络学会主要关注真正重要的信息。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

cover

入门指南：远程运行 ONLYOFFICE 协作空间 MCP 服务器

DAMO开发者矩阵

cover

字节机器人学会了“穿鞋带“：83.3%成功率背后的灵巧操作新突破

DAMO开发者矩阵

cover

MIT突破：机器人实现人类般流畅反应能力

DAMO开发者矩阵

所有评论(0)

查看更多评论

deardao

已为社区贡献2条内容