17K tokens/秒:定制芯片实现 AI 瞬间响应
当你在聊天机器人中输入问题,答案几乎是瞬间出现的。不是几秒,而是零点几秒,甚至更快。这种体验对习惯了「慢慢打字」的 AI 服务的人来说,简直不可思议。这并非魔法,而是一家初创公司通过硬件创新带来的变革。
当你在聊天机器人中输入问题,答案几乎是瞬间出现的。不是几秒,而是零点几秒,甚至更快。这种体验对习惯了「慢慢打字」的 AI 服务的人来说,简直不可思议。这并非魔法,而是一家初创公司通过硬件创新带来的变革。
从「慢速打字」到「瞬间响应」
传统 AI 服务的体验往往伴随着等待。当你向 ChatGPT 提问,它会逐字显示回复,仿佛有人在键盘上敲击;或者需要等待数秒才能看到完整答案。这种延迟源于模型在通用 GPU 上运行时需要频繁读写内存,而内存与计算单元的分离形成了速度瓶颈。Hacker News 讨论中,用户描述这种体验时说:「看到 15k tokens / 秒的响应速度令人震惊」。
一家名为 Taalas 的初创公司,通过将 AI 模型直接「蚀刻」到定制硅芯片中,彻底改变了这一模式。他们的首款产品基于 Llama 3.1 8B 模型,实现了 17k tokens / 秒的推理速度——比当前主流 GPU 方案快 10 倍,功耗降低 10 倍,成本减少 20 倍。在 chatjimmy.ai 上测试时,用户反馈:「完整答案在毫秒级弹出,这种体验完全不同于需要流式输出的传统技术」。
为什么「蚀刻模型」能这么快?
传统 AI 推理依赖软件在通用硬件上运行。模型权重存储在内存中,计算单元需要不断从内存读取数据,而内存访问速度远低于芯片内部计算速度。这种「内存墙」问题导致了大部分延迟。Taalas 的方案则彻底重构了硬件架构:
- 合并存储与计算:将模型权重直接固化在硅芯片中,消除内存与计算单元的分离。芯片内部使用特殊设计的 ROM 结构,单个晶体管就能存储 4 位权重并完成乘法运算。NextPlatform 文章 解释:「我们设计了掩模 ROM 回读结构,硬连线部分能在单个晶体管中存储 4 位权重并完成相关乘法运算」。
- 完全专业化:芯片只为特定模型设计,不追求通用性。这避免了通用 GPU 中冗余电路的开销,所有晶体管都用于模型计算。
- 简化设计:无需高级封装、HBM 内存、液冷等复杂技术。芯片仅需标准制造工艺(6nm TSMC),功耗控制在 200W / 芯片。
这种设计类似早期计算机从 ENIAC(庞大真空管计算机)到晶体管的进化:通过高度专业化,将计算效率提升一个数量级。正如评论中所说:「过往的技术革命往往从怪异原型开始,最终被更实用的突破性方案取代」。
小模型的实用价值
当前 Taalas 的芯片仅支持 Llama 3.1 8B 模型,这是一个 2022 年左右的轻量级模型。在 Hacker News 上,许多用户指出其回答常有「幻觉」,例如对「草莓中有几个 r」的问题,它会错误回答「2 个 r」(实际是 3 个)。有人调侃:「我从未见过错误答案这么快的」。
但这种「小模型」并非毫无价值。在特定场景中,速度比准确性更重要:
- 数据提取与分类:处理数百万条日志,快速识别敏感信息(PII 检测)。一位用户提到:「PII 脱敏是很好的应用场景」。
- 实时 API 路由:根据自然语言查询自动转换为结构化 API 调用。例如「取消我的上一个订单并退款」自动触发订单查询、取消、退款等链式操作。
- 边缘计算设备:嵌入到汽车、机器人或 IoT 设备中,实现低延迟决策。评论中有人指出:「这对机器人应用很理想,因为需要低延迟的窄场景」。
- 预过滤与流处理:在数据进入大模型前进行初步筛选。例如「用户查询 A 是否匹配文档类型 A?匹配则继续,否则升级」。
正如一位工程师所言:「你不需要超级智能的模型,但低成本和高速度可能更重要」。
模型迭代的挑战
AI 模型更新速度极快,新模型每几个月就发布。而芯片制造周期约 2 个月,这意味着芯片可能在量产时已落后于最新模型。评论中有质疑:「我对 2 个月的制造周期非常怀疑,要在任意 2 个月内实现前沿工艺调整是很有野心的」。
但 Taalas 的方案并非完全不可调和:
- LoRA 微调支持:芯片支持通过低秩适配(LoRA)对模型进行微调,无需重新制造芯片。
- 模型固化场景:某些应用不需要最新模型。例如自动驾驶的感知系统、工业控制的实时决策,这些场景的模型需求相对稳定。
- 专用芯片生态:未来可能形成「AI 芯片卡」生态,类似游戏卡可插拔更换。一位用户设想:「未来可能是 SD 卡大小的可插拔 AI 芯片,直接插入设备」。
对比来看,Cerebras 等公司采用 Wafer-Scale Engine(晶圆级引擎)技术,能运行任意大模型,但功耗和成本更高。Taalas 的方案则聚焦于「特定模型 + 超高速」的细分市场,类似 ASIC 比特币矿机:牺牲通用性,换取特定任务的极致效率。
未来:从云端到边缘
当前 Taalas 的芯片功耗约 200W / 芯片,需要数据中心级散热,不适合个人设备。但技术演进方向明确:
- 更小尺寸与更低功耗:通过更先进制程(如 3nm)和电路优化,功耗有望降至 10W 以下,使嵌入式设备成为可能。
- 多芯片协同:通过多个芯片并行运行,支持更大模型。例如 80B 模型可能需要 10 个芯片,但速度仍比 GPU 快。
- 专用芯片普及:未来可能出现「AI 芯片商店」,用户根据需求选择不同模型的芯片卡。一位评论者提到:「如果他们能在同一硬件上运行嵌入模型,我立刻付费」。
这种技术的意义不在于取代大模型,而在于解决「速度 - 成本 - 功耗」三角问题。当 AI 推理不再是云端专属,而是可以嵌入到每个设备中,将催生全新应用场景:自动驾驶的实时决策、智能家居的本地化语音助手、工业设备的预测性维护。正如一位用户总结:「当习惯了 ChatGPT 的模拟打字速度后,这种响应速度令人震惊」。
当 AI 不再需要等待,它将真正成为「无处不在」的工具。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)