万字详解大模型推理加速核心原理丨茶思AI推理
本期内容围绕1月17日至1月30日AI推理领域核心进展,横跨底层优化、多智能体协同、3D生成、OCR识别、科学发现、工业搜推、具身智能、多模态领域,囊括分形框架、智能体集群、视觉推理、测试时训练、隐式推理、紧凑token并行推理等关键技术,呈现推理从原理、架构到产业落地的全链路革新。NO.1万字详解大模型推理加速核心原理:分形规律与资源计算公式文章借鉴分形几何的自相似性原理,提出了该框架旨在系统性
本期聚焦】万字详解大模型推理加速分形原理,重塑资源优化体系;月之暗面发布Kimi K2.5,实现AI推理从“单体思考”到“集群作战”进化;Hyper3D Rodin Gen-2 Edit上线,3D生成推理迈入可编辑时代;人大联合团队发布OnePiece,落地工业级生成式搜推推理;具身智能心理世界模型综述出炉,搭建表征-推理-基准体系。
本期内容围绕1月17日至1月30日AI推理领域核心进展,横跨底层优化、多智能体协同、3D生成、OCR识别、科学发现、工业搜推、具身智能、多模态领域,囊括分形框架、智能体集群、视觉推理、测试时训练、隐式推理、紧凑token并行推理等关键技术,呈现推理从原理、架构到产业落地的全链路革新。
NO.1
万字详解大模型推理加速核心原理:分形规律与资源计算公式
![]()
内容提要:
1.构建分形思考框架:系统化应对优化复杂性。
文章借鉴分形几何的自相似性原理,提出了在全层级遵循“看清楚 - 避免浪费 - 提升利用率 - 节约资源”的统一优化逻辑。该框架旨在系统性地应对不同硬件与模型架构下的复杂局面,确保在优化过程中不遗漏重点,并能持续找到优化方向。
2.量化四大核心资源:精准定位性能瓶颈。
优化的前提是建立精确的资源消耗模型。文章聚焦算力、显存、显存带宽、通信带宽四大核心资源,通过对 DeepSeek R1/V3 架构(如 MLA、MoE)的深度解析,提供了各阶段(Prefill 与 Decode)的资源测算公式,从而在宏观、中观、微观层级快速识别资源不匹配或短缺的瓶颈点。
3.消除结构性冗余:全层级减少资源浪费。
在识别瓶颈后,首要任务是消灭明显的资源浪费。具体手段包括:在宏观层级通过分布式 KV Cache 存储减少重复 Prefill 计算;在中观层级通过 CPU-GPU 异步调度消除交互空隙;在微观层级通过算子融合(如 MoE 专家选择、Pre-Quant 融合)减少 Kernel Launch 开销和数据重复搬运。
4.深化软硬协同机制:提升资源利用率与均衡性。
针对资源不均衡问题,文章重点阐述了 PD(Prefill-Decode)分离架构。通过针对性优化 Prefill 节点的并行策略(TP+EP)与调度,以及 Decode 节点的负载均衡与通信优化(如借力 DeepEP、TRMT 等工具实现零拷贝和计算通信重叠),在解决“显存墙”问题的同时,最大化硬件资源的有效产出。
5.驱动算法与架构创新:从源头节约计算资源。
最高级的优化是通过减少计算或访存需求来节约资源。文章以 DeepSeek 的实践为例,介绍了利用 MLA(多头潜变量注意力) 极大压缩 KV Cache 显存占用,采用 W4A8 量化 减半显存带宽需求,以及通过 DSA(稀疏注意力) 将长序列计算复杂度从 O(n2)O(n^2)O(n2) 降至 O(nk)O(nk)O(nk),从而逼近硬件的物理极限。
【茶思小词典】分形思考框架
本文提出的、用于系统性解决大模型推理性能优化问题的核心方法论,借鉴分形几何的自相似性原理,在大模型推理优化的宏观分布式架构、中观单机 / 框架 / 并行策略、微观算子实现等全层级,统一遵循 “看清楚 — 避免浪费 — 提升利用率 — 节约资源” 的优化逻辑,以算力、显存、显存带宽、通信带宽四大核心资源为分析对象,精准定位各层级资源瓶颈与不均衡问题,系统性开展推理优化,避免优化方向遗漏,同时适配不同大模型与硬件平台,最终逼近硬件物理极限。
NO.2
月之暗面发布Kimi k2.5多模态智能体模型:从“单体思考”到“集群作战”进化
内容提要:
1.推理能力整体突破。
Kimi K2.5不仅基于万亿参数构建,还经过约15万亿视觉与文本混合Token的原生多模态深度融合预训练,实现了复杂逻辑推理、多步工具调用以及视觉理解上的全面突破,完成了从“思考”到“集群作战”的底层逻辑重构,致力于将昂贵的专家级推理能力转化为触手可及的基础设施。
2.集群协同推理突破。
Kimi K2.5的核心突破是智能体集群(Agent Swarm),其核心逻辑从“做大一个模型”转向“让多个模型协作”,可让模型自动扮演“指挥官”,拆解复杂任务,调度最多100个子智能体并行完成多达1500个协调步骤的推理任务,子智能体分工无需预设脚本,相比单模型串行推理,将执行时间缩短80%,可快速完成跨百家公司的市场调研等复杂任务。
3.视觉推理能力。
Kimi K2.5具备出色的视觉推理能力,可通过对图像和视频进行推理,改善图像/视频转代码生成和视觉调试效果,降低用户视觉表达意图的门槛;同时拥有自主视觉调试能力,能渲染自身代码结果、与原图对比、自动迭代修正,直至视觉匹配完美,可将艺术作品意境转化为专业网页设计,实现视觉意图的精准落地。
4.推理能力技术支撑。
并行代理强化学习(PARL)、阶段性奖励塑造、关键步骤度量、自主视觉调试等核心技术,为Kimi K2.5的推理能力提供了坚实支撑;其中PARL让模型学会拆解复杂任务、调度子智能体,阶段性奖励塑造解决“串行塌陷”问题,关键步骤度量降低推理延迟,自主视觉调试完善多模态推理闭环。
5.推理表现基准测试。
在衡量AI推理能力的各项基准测试中,Kimi K2.5的推理表现显著提升;在智能体基准测试中,于HLE(人类终极考试)、BrowseComp等公认高难度推理测试中刷新纪录;在办公基准测试中,相比K2 Thinking,其生产级工作流程与人类专家表现相关的推理能力分别提升59.3%和24.3%;在编程基准测试中,也展现出优于前代的逻辑推理与代码处理能力。
长按二维码,阅读原文
NO.3
Hyper3D Rodin Gen-2 Edit 上线,AI 3D 修模落地,3D生成迈入可编辑时代
内容提要:
1.AI 推理应用突破:3D 生成从 “抽卡式推理” 迈入可迭代推理新阶段。
过去 3D 生成领域的 AI 推理多局限于 “抽卡式” 随机结果生成,用户对模型局部不满意时,仅能通过更换提示词、随机种子重新触发推理,效率低下。Hyper3D 发布 Rodin Gen-2 Edit,依托 AI 推理技术打造业内首个整合 3D 生成与 3D 编辑的完整商用工作流,实现基于自然语言指令的定向推理修改,将 3D 生成从单一结果展示,推进到可反复迭代优化的 AI 推理编辑时代,填补了行业 3D 编辑推理能力的空白。
2.核心 AI 推理能力:双路径支撑 + 精准指令驱动的 3D 局部编辑推理。
该产品的 AI 推理能力支持两条核心路径,既可以对 Hyper3D 平台内文生 3D、图生 3D 的模型直接触发局部修改推理,也能导入第三方 AI 生成模型、历史存量资产,在原模型基础上启动编辑推理。操作层面通过 “框选目标区域 + 输入文本指令” 的逻辑驱动 AI 推理,精准执行局部调整,生成结果中修改区域与原模型衔接自然、结构逻辑完整,能完整保留未选中部分,有效规避传统推理修改对整体模型的破坏。
3.配套 AI 推理技术:全流程可控的 3D 推理技术体系协同赋能。
产品并非单一推理功能,而是构建了一套完整的可控 AI 推理工作流:通过 3D ControlNet 技术,在生成阶段基于边界框、点云、体素等信号引导 AI 推理,精准控制模型几何结构;借助 BANG 递归分件技术,通过 AI 推理拆解复杂模型,为局部编辑提供语义基础;依托 Smart Low-poly 智能低模优化推理,提升生产级资产的创作效率;再结合 Text-to-Edit 自然语言定向修改推理,降低专业用户操作门槛,多技术协同保障 3D 创作的高效可控。
4.底层 AI 推理支撑:原生 3D 大模型框架筑牢推理效果根基。
Rodin Gen-2 Edit 的 AI 推理能力,核心依托 Hyper3D 自研的原生 3D 大模型框架 CLAY(曾提名 SIGGRAPH 最佳论文)。相较于行业早期 “2D 升维 3D” 的算法路径,该原生框架从底层突破 3D 数据瓶颈,通过算法与框架的底层创新,解决了薄面、拓扑混乱等影响产业应用的致命问题,让 3D 生成推理效果首次从 “不可用” 提升至 “可用线”,也奠定了其在 3D 生成与编辑 AI 推理领域的领先地位。
5.AI 推理未来布局:向复杂场景拓展,构建高阶推理基础设施。
团队在现有 3D 单物体编辑推理基础上,已通过获得 SIGGRAPH 2025 最佳论文的 CAST 技术布局下一阶段,该技术可通过 AI 推理从单图生成包含物体关系、物理约束的完整 3D 场景。这一布局不仅拓展了 3D 领域 AI 推理的应用边界,更将为未来 “世界模型” 与具身智能的 AI 推理基础设施构建埋下伏笔,持续强化中国团队在该领域的全球竞争力。
NO.4
DeepSeek开源DeepSeek-OCR2
内容提要:
1.全量开源:DeepSeek-OCR2 正式发布及资源公开。
DeepSeek 推出重磅升级模型 DeepSeek-OCR2,其论文、代码、模型均全面开源,同时提供了对应的项目、模型下载及论文官方地址。
2.核心架构革新:实现视觉编码范式转变。
DeepSeek-OCR2 核心突破是采用全新的 DeepEncoder V2 架构,实现视觉编码从「固定扫描」到「语义推理」的范式转变,赋予模型因果推理能力。
3.DeepEncoder V2 详解:两级级联因果推理设计。
DeepEncoder V2 由视觉分词器与作为视觉编码器的轻量级大语言模型 Qwen2-0.5B 构成,通过视觉 Token 双向注意力、查询 Token 因果注意力的设计,实现两级级联因果推理,按语义逻辑重排图像信息。
4.性能卓越:基准测试与生产场景表现亮眼。
DeepSeek-OCR2 性能表现优异,在 OmniDocBench v1.5 基准测试中以最少视觉 Token 取得 91.09% 的综合得分,阅读顺序逻辑性显著提升,对比 Gemini-3 Pro 等闭源模型更具优势,且在实际生产场景中有效降低 OCR 结果重复率。
5.未来展望:迈向原生多模态统一智能。
DeepSeek-OCR2 验证了 LLM 作为视觉编码器的可行性,是迈向原生多模态的关键一步,未来有望通过配备不同模态查询嵌入,实现多模态数据的统一处理与通用多模态智能探索。
【茶思小词典】MoE 专家跨卡调度
大模型 MoE 架构推理 Decode 阶段,根据 Token 路由结果,将计算任务分配至不同 GPU 卡上对应专家进行处理的调度行为,是导致 Decode 阶段通信敏感的关键因素,会直接影响该阶段的推理效率与性能。
NO.5
斯坦福×英伟达发布AI推理新范式,刷新了多领域SOTA
内容提要:
1.新范式提出:TTT-Discover 测试时训练范式问世。
斯坦福大学与英伟达研究团队发表论文《Learning to Discover at Test Time》,提出 TTT-Discover(Test-Time Training,测试时训练)新范式。该范式打破传统 AI 模型 “预训练阶段固化知识、推理阶段仅回忆推演” 的模式,即便如 OpenAI o1 模型仅通过思维链打草稿,权重仍锁死,而 TTT-Discover 能在推理阶段针对特定问题现场更新模型参数,实现 “考场上现场长脑子” 的突破。
2.核心颠覆理念:聚焦单点满分,摒弃通用稳健。
TTT-Discover 的核心逻辑极具反直觉性,摒弃传统强化学习训练 “全能选手”、追求通用稳健与平均分的目标,转而聚焦单点问题的 “满分答案”。其针对癌症新分子寻找、数学猜想反例验证等科学发现类任务,采用激进策略:推理时用强化学习修改参数实现现场进化,修改损失函数鼓励探索高风险高回报区域,且针对特定问题进化的 “特种兵” 模型,解题后即可丢弃,哪怕过程中模型偏科、过拟合也无关紧要。
3.亮眼实战战绩:攻克多领域难题,超越人类与传统。
AITTT-Discover 在三大硬核领域展现卓越性能:数论领域,将困扰数学家数十年的 Erdős 最小重叠问题上界从 0.380924 压低至 0.380876,构造出 600 个分段的复杂非对称函数,远超人类此前 51 段的最佳构造;GPU 内核优化比赛中,其编写的代码在 H100 显卡上耗时 1161 微秒,优于人类第一的 1371 微秒,在 A100 显卡上比人类第一名快 50%,还发现人类工程师未想到的激进优化手段;AtCoder 启发式竞赛中,击败最强 AI 智能体,超越人类金牌选手历史最佳成绩。
4.显著应用局限:存在成本、通用性与适用场景短板。
TTT-Discover 并非万能,存在三大局限:成本极高,单问题解决成本约 500 美元(合人民币 3500 元),仅适用于高价值任务,不适用于普通场景;通用性极差,进化后的模型为单点突破而生,是一次性工具,无法胜任其他任务(如聊天);依赖明确打分器,仅能解决有连续奖励信号、优劣可清晰评判的问题,对 “写诗”“证明黎曼猜想” 等无精细打分机制的任务无能为力。
5.技术脉络与价值:TTT 范式迭代,重塑深度学习与智能认知。
该范式是斯坦福大学博士后、英伟达研究员 Yu Sun 深耕 7 年的 TTT 技术 3.0 成果,其核心信仰是 “学习不应在训练结束时停止”,推动 TTT 从边缘走向主流:1.0 时代聚焦视觉修复,微调模型适应坏图;2.0 时代挑战 Transformer 架构,用 TTT 过程替换 Attention 机制;3.0 时代即 TTT-Discover,将技术用于科学发现,实现推理阶段的智力进化。这一成果推动深度学习从静态模型向动态过程转变,也颠覆了传统 “博学” 认知,展现出为解决未知难题而极致异化的新型智能形态。
【茶思小词典】TTT-Discover
由斯坦福大学和英伟达研究团队提出的测试时训练新范式,全称 Test-Time Training Discover,核心是打破传统 AI 预训练后参数冻结的模式,在推理阶段针对特定科学发现类问题,通过强化学习现场修改模型参数,修改损失函数鼓励探索高风险高回报区域,生成的专项模型用完即弃,仅追求获取该问题的正确答案,无需兼顾通用能力。
NO.6
傅聪联合人大发布OnePiece:首个全面落地推理能力的工业级生成式搜索框架
论文地址:https://arxiv.org/pdf/2509.18091
项目地址:https://huggingface.co/papers/2509.18091
内容提要:
1.研究背景与成果发布:OnePiece 框架填补推理能力迁移空白。
2025 年生成式推荐技术迅猛发展,但多数工作聚焦基座模型训练,鲜有研究将 LLM 中的推理技术迁移至推荐系统。傅聪团队联合人大高瓴学院发表研究成果《OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System》,提出融合上下文工程、隐式推理和多目标训练的生成式搜推框架 OnePiece,旨在为推荐模型赋予推理能力,该成果已在 Shopee Search 主场景全流量生效并获显著收益,发布后跻身 Hugging Face Daily Paper 榜单前三,引发广泛关注。
2.核心技术一:适配生成式推荐的上下文工程框架。
OnePiece 提出适配电商搜推场景的上下文工程框架,摒弃传统 CoT 技术在推荐场景中难以还原用户思维、输入异构不连贯的问题,借鉴少样本学习思路,引入锚点物品序列作为 “专家示例”。框架序列格式包含四部分:用户行为历史(IH)、辅助引导预测的锚点序列(PA)、聚合异构信息的场景描述符(SD),以及召回模式不具备的候选物品集合(CIS),通过注入领域知识为模型引入可控归纳偏置。
3.核心技术二:自回归隐式推理与渐进式监督引导。
针对生成式推荐无自然语言承载思考链条的问题,OnePiece 采用隐式推理机制,让模型在前向计算阶段于隐空间自回归展开多步推理,仅输出最终结果而不暴露推理过程。为解决隐式推理缺乏过程监督、易偏离目标的问题,融入渐进式多任务建模思想,在中间推理阶段叠加不同深度和颗粒度的监督信号,插入 “浅监督锚点”,引导模型推理路径从简单到高阶逐级展开,提升推理组织性与稳定性。
4.实验结果:离线与在线实验均获显著成效。
离线实验中,OnePiece 相较成熟基线模型 DLRM 及其他生成式推荐模型表现更优,其块级推理机制提升信息带宽,渐进式训练策略增强推理稳定性,双向注意力提升上下文聚合能力,且多步推理随步数增加性能逐步提升、渐进式引导优于仅监督最终一步;在线实验中,在 Shopee 主搜召回阶段替换 DeepU2I 召回,实现 1.08% 的 GMV / 用户增长,prerank 阶段替换 DLRM 模型,实现 1.12% 的 GMV / 用户增长及 2.9% 的广告收入增长。
5.未来展望:迈向通用工业级推理型推荐模型。
OnePiece 验证了通过适配场景的上下文工程与推理范式,可让推荐模型在无语言环境下具备类 LLM 的指令跟随能力,预示 “提示词优化” 将成为搜推技术栈潜在核心能力。未来将聚焦 OnePiece 2.0 版本研发,尝试以单一模型统一建模多场景、多类型召回策略,构建 “One For All” 的通用工业级推荐模型(General Recommender Model)。
【茶思小词典】OnePiece
由傅聪团队联合人大高瓴学院提出的生成式搜推框架,融合适配推荐场景的上下文工程、自回归隐式推理与渐进式多目标训练,专为工业级 cascade 排序系统设计,能将 LLM 的推理能力迁移至推荐系统,已在 Shopee Search 主场景全流量落地并取得显著业务增长,是生成式搜推进入推理时代的标志性成果。
NO.7
首个具身智能领域心理世界模型系统性综述:100+paper构建表征-推理-基准框架
论文地址:https://arxiv.org/pdf/2601.02378
内容提要:
1.核心问题提出:机器人交互瓶颈源于缺失心理世界模型。
机器人在避障、抓取等物理操作上表现熟练,但在递接物品、辅助陪伴等需理解人类意图的交互场景中表现笨拙,核心原因并非感知与动作不足,而是当前系统多依赖物理世界模型,缺乏关键的心理世界模型,无法判断人类的意图、信念与社交期待,且心理世界模型并非替代物理世界模型,而是与之协同。
2.两类模型界定:物理世界模型与心理世界模型的核心差异。
物理世界模型关注位置、速度、几何等可量化的物理变量,支撑抓取、避障等物理任务;心理世界模型聚焦信念、意图、情绪等驱动行为的隐性变量,核心作用是让智能体解释行为背后的社会含义,二者协同才能完整解读人机交互中的行为与逻辑。
3.心理世界模型的两种表征方式。
心理世界模型需维护信念、目标 / 意图、情绪 / 偏好三类核心心智状态,表征方式分为两种,强表征偏心理学与结构化,采用 “信念 - 欲望 - 意图” 槽位设计,可解释性强但易简化人类行为;弱表征偏计算与神经,将心智作为可学习内部状态,适配性强但解释性较弱,其表征核心是为机器人提供可更新、可引用的心智状态变量。
4.心理世界模型的推理方式与发展趋势。
心理世界模型依托心智理论实现对人类心理状态的递归推理,主流推理方式有两种,提示式范式通过 LLM/VLM 激发隐式心智理论能力,灵活适配开放场景但易出现浅层匹配与交互误解;基于模型的范式显式构建可解释的推断模型,适合高可控需求场景但建模成本高,当前二者融合成为趋势,兼顾灵活性与可靠性。
5.评测标准与未来价值:心理世界模型的落地关键与重要性。
心理世界模型的评测需贴近真实互动,核心标准是机器人能否在连续互动中完成基于线索解释、反馈修正、修正落地动作的闭环,其虽面临在线更新、推理稳定性、伦理风险等问题,却是机器人走进家庭、医院等人类社会场景,实现自然安全人机交互的核心关键。
【茶思小字典】心智理论(ToM)
是心理世界模型(MWM)所支撑的核心能力,指机器人对他人的信念、意图、目标、情绪等心理状态进行递归推理,从而猜测人类内心想法、解读行为背后社交含义的能力,是实现自然、安全人机交互的关键,主要分为提示式和基于模型两种实现范式。
NO.8
Qwen3 超大杯推理版正式上线,此前凭预览版斩获多项SOTA
内容提要:
1.模型发布与核心实力:Qwen3-Max-Thinking 正式版上线,登顶全球 SOTA。
阿里千问发布 Qwen3-Max-Thinking 正式版,在 19 项涵盖科学知识、数学推理、代码编程的权威基准测试中,赶超 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro 等闭源模型,刷新全球 SOTA;其预览版已在 AIME 25、HMMT 25 数学竞赛中取得 100% 准确率,该模型总参数超万亿,预训练数据量达 36T Tokens,完成大规模强化学习后训练。
2.实用能力展示:代码生成与工具调用表现突出。
代码能力上,可按详细提示词生成带手势识别的网页气球射击游戏,也能依据简易指令生成鹈鹕骑自行车的动画 SVG;工具调用上,可自主收集资料、调用代码解释器,快速完成内存涨价相关股票分析、走势绘制等研报任务,展现出强大的复杂指令执行与实用场景落地能力。
3.核心技术创新:自适应工具调用与测试时扩展双突破。
模型性能提升依托两大核心技术,自适应工具调用可让模型自主按需选用搜索、记忆、代码解释器,配合专属训练流程,缓解幻觉、支持实时信息获取与复杂计算推理;测试时扩展技术采用经验积累式、多轮迭代策略,提升上下文利用效率与推理性能,在 HLE、IMO-AnswerBench 测试中均取得优异成绩。
4.开放体验与生态:多端上线体验,API 同步开放。
千问 APP PC 端、网页端已上线 Qwen3-Max-Thinking,支持免费体验,对应的 API(qwen3-max-2026-01-23)也已对外开放,同时千问 APP 全面接入淘宝、支付宝、飞猪、高德等阿里生态业务,推进顶尖模型能力与应用生态的深度结合。
5.行业影响与未来趋势:中国开源模型领跑全球,落地应用成新方向。
全球开源 AI 模型数据显示,中国开源模型采用份额、新模型下载量均位居前列,千问系列衍生模型数量突破 20 万,下载量超 10 亿次,超越 Llama 成为全球开源新标杆;2026 年基础模型将持续升级,并向垂直领域与实际生活深度融合,拓展更多落地应用场景。
【茶思小字典】测试时扩展(Test-Time Scaling)
Qwen3-Max-Thinking 采用的核心推理优化技术,指在模型推理阶段分配额外计算资源,运用经验积累式、多轮迭代的策略,通过经验提取机制引导迭代式自我反思,限制并行推理路径数量以避免冗余,提升上下文利用效率,在相近 Token 消耗下,大幅增强模型的推理性能与效率,助力模型在 HLE、IMO-AnswerBench 等基准测试中刷新 SOTA。
NO.9
英伟达最新Fast-ThinkAct:加速9倍,优于所有推理型VLA
论文地址:https://arxiv.org/pdf/2601.02378
内容提要:
1.行业痛点与核心突破:Fast-ThinkAct 打破具身智能 “不可能三角”。
具身智能长期面临模仿学习无规划、显式推理 VLA 高延迟的困境,无法同时兼顾逻辑能力与实时性,无法满足 1-15Hz 高频决策需求。NVIDIA 提出的 Fast-ThinkAct,将逻辑内化为 6 个潜变量信号,摒弃 “推理依赖文字” 的定式,弥合高层语义规划与底层物理执行的鸿沟。
2.核心框架设计:潜向推理蒸馏实现隐式高效推理。
Fast-ThinkAct 采用教师 - 学生蒸馏架构,由文本教师模型生成思维链,学生模型将其压缩为 6 个潜向词元,再经空间词元处理指导动作模型,推理延迟暴降 89.3%。其关键创新包括偏好引导蒸馏,筛选优质推理轨迹;视觉规划对齐,融入空间坐标信息;可言说化设计,通过轻量级 LLM 将潜向信号还原为文本,解决黑盒问题。
3.效率与性能表现:推理速度大幅提升,多基准刷新 SOTA。
Fast-ThinkAct 相较 ThinkAct-7B 推理速度快 9.3 倍,3B 规模模型延迟降至 805ms,可在 16 张 A100 上部署,满足高频决策需求。在 LIBERO、SimplerEnv 等基准中单臂任务成功率刷新 SOTA,在 RoboTwin2.0 双臂协作任务中,简单与扰动环境成功率远超 RDT,长程精准任务也表现优异。
4.核心能力验证:全方位超越顶级模型,具备容错与少样本适配能力。
在 EgoPlan-Bench2、RoboVQA 等推理榜单,Fast-ThinkAct-3B 得分超越 GPT-4V、Gemini-2.5-Flash,运动轨迹预测精准,可实现双臂默契配合。模型具备错误识别与恢复能力,真实场景自救成功率达 76.9%;仅需 10 个样本即可快速适配新任务,少样本学习能力突出,且能过滤冗余与错误推理,保留核心逻辑。
5.消融实验与行业价值:验证组件必要性,推动具身智能落地。
消融实验证实,偏好引导语言损失、轨迹对齐等组件均不可或缺,Fast-ThinkAct 性能显著优于纯 SFT 方案。该工作证明机器人的 “直觉” 可被训练,实现从 “慢思考” 到 “快决策” 的跨越,是具身智能从实验室走向真实复杂场景的关键一步。
如何学习AGI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取