DeepSeek 最近的突破颠覆了人们对人工智能计算需求的假设,表明更好的硬件利用率可以显著减少对昂贵 GPU 的需求。

本文是 Modular “ AI 计算民主化”系列的第一部分。更多信息,请参阅:

第一部分:DeepSeek 对 AI 的影响(本文)
第 2 部分:“CUDA”到底是什么?
第 3 部分:CUDA 如何取得成功?
第 4 部分:CUDA 是现任者,但它好用吗?
第 5 部分:OpenCL 和 CUDA C++ 替代品怎么样?
第 6 部分:TVM、XLA 和 AI 编译器怎么样?
第 7 部分:Triton 和 Python eDSL 怎么样?
第 8 部分:MLIR 编译器基础设施怎么样?
第九部分:硬件公司为何难以构建人工智能软件?
第十部分:Modular 打破矩阵格局的策略
多年来,领先的人工智能公司一直坚称,只有拥有庞大计算资源的公司才能推动尖端研究,这强化了这样一种观点:除非你拥有数十亿美元的基础设施投入,否则“不可能赶上”。但 DeepSeek 的成功却讲述了一个不同的故事:新颖的想法可以带来效率上的突破,从而加速人工智能的发展;规模更小、高度专注的团队可以挑战行业巨头,甚至创造公平的竞争环境。

我们相信,DeepSeek 的效率突破预示着AI 应用需求的激增。如果 AI 要继续发展,就必须降低总体拥有成本 (TCO) ——通过扩大替代硬件的覆盖范围、最大限度地提高现有系统的效率以及加速软件创新。否则,未来 AI 的效益将面临瓶颈——要么是硬件短缺,要么是开发者难以有效利用现有的各种硬件。

这不仅仅是一个抽象的问题——这是我整个职业生涯都在努力解决的一个挑战。

我对计算 + 开发人员效率的热情

过去 25 年来,我一直致力于为世界释放计算能力。我创立并领导了LLVM的开发,LLVM 是一项编译器技术,它为 CPU 开辟了新的应用领域。如今,LLVM 已成为 C++、Rust、Swift 等性能导向型编程语言的基础。它支持几乎所有 iOS 和 Android 应用,以及 Google 和 Meta 等主要互联网服务的基础设施。

这项工作为我在苹果领导的几项关键创新铺平了道路,包括创建OpenCL(一个早期的加速器框架,现已被整个行业广泛采用)、使用LLVM重建苹果的CPU和GPU软件堆栈,以及开发Swift编程语言。这些经历强化了我对共享基础设施的力量、软硬件协同设计的重要性,以及直观、开发者友好的工具如何释放先进硬件的全部潜力的信念。

爱上人工智能

2017 年,我开始着迷于 AI 的潜力,并加入 Google,领导 TPU 平台的软件开发。当时,硬件已经准备就绪,但软件尚未投入使用。在接下来的两年半时间里,通过团队的共同努力,我们在 Google Cloud 上推出了 TPU,并将其扩展到每秒百亿亿次浮点运算 (ExaFLOPS),并构建了一个研究平台,促成了“注意力就是一切”(Attention Is All You Need)和BERT等突破性成果。

然而,这段旅程也揭示了人工智能软件更深层次的问题。尽管 TPU 取得了成功,但它们仍然仅与 PyTorch 等人工智能框架半兼容——谷歌凭借巨大的经济和研究资源克服了这个问题。一个常见的客户问题是:“TPU 能开箱即用地运行任意人工智能模型吗?”真相是?不能——因为我们没有 CUDA,而 CUDA 是人工智能开发的事实标准。

我并非回避解决行业重大问题的人:我最近的工作是创建下一代技术,以适应硬件和加速器的新时代。这包括 MLIR 编译器框架(目前已被整个行业广泛采用的 AI 编译器),以及 Modular 团队在过去 3 年中构建的一些特别的东西——但我们稍后会在合适的时机分享更多相关信息。

GPU 和下一代计算将如何发展?

由于我的背景和在业界的人脉,我经常被问及计算的未来。如今,无数团队正在硬件领域进行创新(部分原因是NVIDIA 市值飙升),而许多软件团队正在采用 MLIR 来支持新的架构。与此同时,高层领导们也在质疑,为什么尽管投入了大量资金,AI 软件问题仍然悬而未决。挑战并非缺乏动力或资源。那么,为什么这个行业会感到停滞不前呢?

我不认为我们陷入了困境。但我们确实面临着一些棘手的基础性问题。

为了向前发展,我们需要更好地理解行业底层动态。计算是一个技术含量极高的领域,发展迅速,充斥着各种术语、代号和新闻稿,旨在让每一款新产品都听起来具有革命性。许多人试图拨开迷雾,只见树木不见森林,但要真正理解我们的发展方向,我们需要探究其根源——那些将一切联系在一起的基本构件。

这篇文章是系列文章的第一篇,我们将以一种简单易懂的方式回答这些关键问题:

🧐 CUDA 到底是什么?
🎯 CUDA 为何如此成功?
⚖️ CUDA 好用吗?
❓ 为什么其他硬件制造商难以提供可比的 AI 软件?
⚡ 为什么 Triton、OneAPI 或 OpenCL 等现有技术还没有解决这个问题?
🚀 我们作为一个行业该如何前进?
我希望本系列文章能够激发有意义的讨论,并提升人们对这些复杂问题的理解。人工智能的快速发展——例如 DeepSeek 最近的突破——提醒我们,软件和算法创新仍然是驱动力。对底层硬件的深入理解将继续解锁“10 倍”突破。

人工智能正以前所未有的速度发展,但仍有诸多潜力有待挖掘。让我们携手突破,挑战固有认知,推动行业发展。让我们一起深入探索!

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐