上百台机械臂同台“裸考“:具身智能的VLA大模型正在重写机器人行业的游戏规则
具身智能无疑是目前AI领域最有想象力的方向之一。VLA大模型的出现,让机器人第一次有了通用的"大脑",不再需要为每个任务从零编程。从EAIDC的"裸考"赛场到银河通用的太空舱,从OpenVLA的开源生态到Gemini Robotics的工业级方案,2026年的具身智能正在以超出预期的速度从实验室走向现实。关注两个词——数据和场景。王田苗教授说得对,具身智能的核心突破口是垂类模型和数据。谁掌握了特定
上百台机械臂同台"裸考":具身智能的VLA大模型正在重写机器人行业的游戏规则
大家好,我是摘星,今天我们来聊聊今年3月底在深圳举办的那场"全球首届具身智能开发者大会"——上百台六轴机械臂摆满赛场,清华北大浙大的20支顶尖队伍同台对抗,72小时限时"裸考",不允许预训练刷分,全靠模型实时感知和决策。这场比赛不只是一场秀,它背后藏着一个正在颠覆整个机器人行业的技术范式:VLA(Vision-Language-Action)大模型。
从Google的Gemini Robotics到开源的OpenVLA 7B,从银河通用的AstraBrain到π0、GR00T N1,2026年的具身智能赛道正在经历一场从"规则驱动"到"模型驱动"的根本性转变。IDC在2026年的报告中用了三个词概括这场变革:模型驱动、软件定义、硬件重构。今天这篇文章,我会带你从VLA模型的技术架构拆到中国具身智能企业的产业落地,中间穿插代码实操和行业数据。不管你是AI工程师、机器人从业者,还是单纯对这个方向感兴趣的读者,看完这篇文章,你会对具身智能的"大脑"有一个非常清晰的认识。
一、具身智能到底是什么?为什么2026年突然爆了?
先说一个基本概念。具身智能(Embodied AI)不是什么新词,它指的是智能体通过物理实体与环境实时交互,实现感知、认知、决策和行动一体化的智能系统。简单说,就是让AI不再只活在屏幕里聊天,而是能"动手干活"。
这个概念提了很多年,但一直卡在一个核心问题上:机器人的"大脑"不够通用。传统的机器人控制系统都是针对特定任务编程的——你想让它抓杯子,就得写一套抓取逻辑;想让它拧螺丝,又得重新来。每换一个任务,工程师都要从零开始调参、写规则、标定传感器。成本高、周期长,工业界勉强能承受,但一到开放环境(比如家庭、商店、医院)就完全不够用了。
转折点出现在2024年底到2025年初。Google DeepMind的RT-X和Gemini Robotics、Physical Intelligence的π0、NVIDIA的GR00T N1……一系列"机器人基础模型"集中亮相。它们的核心思路都一样:用一个大规模的Vision-Language-Action(VLA)模型替代传统控制器,让机器人像人一样"看一眼、想一下、动手做"。
上图展示了两种范式的核心差异。传统方式依赖人工设计的特征提取和规则引擎,每个任务都要定制;VLA模型则端到端地处理视觉和语言输入,直接输出动作指令。这个架构上的转变,才是具身智能在2026年"突然爆了"的根本原因。
数据也能说明问题。2026年第一季度,中国具身智能赛道披露融资事件超过30起,融资总额约200亿元,同比增长58.7%。银河通用、智元机器人、宇树科技等7家企业估值突破百亿元。全球范围内,ICLR 2026收到的VLA相关论文投稿达到164篇,AAAI 2026有6篇具身智能方向的Oral论文。这不是概念炒作,是真金白银和学术资源都在往这个方向倾注。
二、VLA模型架构深度拆解:机器人的"通脑"是怎么炼成的
VLA(Vision-Language-Action)模型是具身智能的核心技术底座。它的名字就说明了架构:把视觉理解、语言理解和动作生成统一在一个模型里。目前最主流的实现方案,是以预训练的Vision-Language Model(VLM)为骨干网络,在此基础上添加Action Head来输出机器人控制信号。
2.1 OpenVLA:开源社区的基础标杆
OpenVLA是目前影响力最大的开源VLA模型,由斯坦福大学、Google DeepMind等机构联合开发,参数规模7B(70亿),在Open X-Embodiment数据集的970K条机器人操作片段上预训练。它的架构可以拆成三个核心模块:
# OpenVLA 模型架构简化示意(基于 transformers 风格)
import torch
import torch.nn as nn
from transformers import PrismaticForConditionalGeneration
class OpenVLAModel(nn.Module):
def __init__(self, config):
super().__init__()
# 1. 双视觉编码器 (Dual Vision Encoder)
# 使用 SigLIP 和 DINOv2 双分支提取视觉特征
self.vision_encoder_siglip = SiglipVisionModel(config.siglip_config)
self.vision_encoder_dinov2 = Dinov2Model(config.dinov2_config)
# 2. 多模态投影层 (MLP Projector)
# 将视觉特征映射到语言模型的嵌入空间
self.vision_projector = nn.Sequential(
nn.Linear(config.vision_hidden_size, config.llm_hidden_size),
nn.GELU(),
nn.Linear(config.llm_hidden_size, config.llm_hidden_size),
)
# 3. 语言模型骨干 (LLM Backbone)
# 基于 Llama 2 7B,处理视觉token和语言指令
self.language_model = LlamaForCausalLM(config.llm_config)
# 4. 动作解码头 (Action Head)
# 将语言模型的输出映射到机器人动作空间
# 动作被离散化为 256 个 bin (tokenize continuous actions)
self.action_head = nn.Linear(config.llm_hidden_size, config.num_action_bins)
def forward(self, images, instruction, proprioceptive=None):
# Step 1: 提取双分支视觉特征并融合
vis_feat_1 = self.vision_encoder_siglip(images)
vis_feat_2 = self.vision_encoder_dinov2(images)
visual_tokens = self.vision_projector(torch.cat([vis_feat_1, vis_feat_2], dim=-1))
# Step 2: 将视觉 token 和语言 token 拼接后送入 LLM
lang_tokens = self.language_model.tokenize(instruction)
input_tokens = torch.cat([visual_tokens, lang_tokens], dim=1)
llm_output = self.language_model(inputs_embeds=input_tokens)
# Step 3: Action Head 输出离散化的动作 token
action_logits = self.action_head(llm_output.last_hidden_state)
# 解码为连续动作值 (7-DoF: x, y, z, roll, pitch, yaw, gripper)
actions = self.decode_actions(action_logits)
return actions
这段代码展示了OpenVLA的核心数据流。值得注意的几个技术决策:
双视觉编码器的设计:SigLIP负责捕捉高层语义信息(“这是一个杯子”),DINOv2负责提取空间几何特征(“杯子在桌子的左前方”)。两者的互补使得模型同时具备"理解"和"定位"能力。
动作离散化:连续的机器人动作(比如关节角度)被分箱(binning)成256个离散token。这意味着模型输出动作的方式和语言模型输出文字完全一样——都是预测下一个token。这个设计直接复用了LLM的训练和推理基础设施,工程上非常优雅。
本体感觉输入:proprioceptive参数可以接收机器人自身的关节状态信息,让模型"知道自己的手臂在哪里",形成闭环控制。
2.2 Gemini Robotics:Google的工业级方案
如果说OpenVLA是学术界和开源社区的标杆,那Google DeepMind的Gemini Robotics就是工业界的重量级选手。它建立在Gemini 2.0基础模型之上,通过机器人特定数据的微调,将Gemini的多模态能力(文本、图像、视频理解)扩展到了物理动作输出。
Gemini Robotics的技术路线有几个值得关注的点:
第一,它继承了Gemini 2.0强大的通用推理能力。这意味着你不需要为每个任务单独训练模型,可以像和ChatGPT对话一样告诉机器人"把红色积木放到蓝色盒子左边",模型就能理解语义并执行。
第二,Google已经和Boston Dynamics达成合作,将Gemini Robotics集成到新版Atlas人形机器人中。这是目前公开的最高调的"大模型+人形机器人"合作案例之一。
第三,在数据策略上,Gemini Robotics延续了Google从RT-1到RT-X的技术积累。Open X-Embodiment数据集本身就是Google主导的项目,汇集了全球21个机构的数据,覆盖22种不同的机器人平台。
2.3 VLA模型的技术挑战与前沿方向
VLA模型虽然架构优雅,但实际部署中面临几个核心挑战:
推理延迟问题:7B参数的模型在机器人端实时运行是个巨大的工程挑战。原始的OpenVLA推理速度较慢,难以满足机器人高频控制的需求。针对这个问题,OpenVLA-OFT(Optimized Fine-Tuning)提出了优化方案:通过并行解码和动作分块(Action Chunking),实现了26倍的动作生成加速,延迟降低3倍,能够达到50Hz的控制频率。Chelsea Finn团队在社交媒体上公布的这一成果,让7B模型在实时控制场景下变得可用。
跨实体泛化:在A机器人上训练的模型,能否直接迁移到B机器人?这是VLA模型走向通用的关键瓶颈。目前Open X-Embodiment数据集已经覆盖21种机器人平台,但跨实体的zero-shot性能仍然有限。AAAI 2026的Oral论文中,多篇聚焦于通过分层/模块化架构来缓解这个问题。
数据瓶颈:高质量的机器人操作数据极其稀缺。与互联网上几乎无限的文本数据不同,让机器人做一件事并记录完整的感知-动作轨迹,成本非常高。银河通用采用的"仿真合成数据预训练+真实数据对齐"策略是目前的主流解法之一。
三、深圳EAIDC大会:一场"裸考"引发的行业地震
2026年3月底在深圳举办的全球首届具身智能开发者大会(EAIDC),是理解这个行业现状的一个绝佳窗口。
3.1 赛事规格与"裸考"规则
这场大会的硬件规格相当硬核:上百台六轴机械臂由自变量机器人提供,超百万算力资源到位,来自清华、北大、浙大等顶尖高校及科研院所的上百支队伍报名参赛,最终20支队伍约60人进入决赛。
但最关键的是比赛规则——“裸考"模式。参赛队伍不允许提前获取测试场景和物体信息,不允许用预训练数据"刷分”。所有队伍在同一个真实环境中,72小时内完成从模型适配到调试部署的全流程。组织方明确传递了一个信号:我们要看的是模型在未知环境下的泛化能力,不是你在已知场景上刷出的漂亮数字。
这与ICLR 2026上VLA研究社区正在热烈讨论的"评估困境"高度呼应——在benchmark上刷高分和在真实世界中干活是两码事。EAIDC的"裸考"模式,某种程度上是在定义具身智能领域的"新评估标准"。
3.2 技术观察:第一视角与零真机预训练
从赛事中浮现出的一个关键技术趋势是"第一视角零真机轨迹预训练"(First-person zero-shot real-robot trajectory pretraining)。简单说,就是模型在训练阶段从未见过真实的物理机器人操作场景,但在比赛中仅凭第一人称相机视角的视觉输入,就能直接输出合理的操作轨迹。
这背后的技术支撑是大规模的仿真预训练和多模态对齐。模型在仿真环境中看过数百万次操作演示(包括第三人称和第一人称视角),学会了从视觉信号到动作指令的映射。当迁移到真实机器人上时,虽然视觉分布存在域差距(domain gap),但通过VLA模型中强大的视觉语言编码器,模型能够进行在线适应。
清华大学王田苗教授在大会期间的一番话非常精辟:“具身智能的核心突破口是垂类模型和数据”。通用基础模型提供了底层的感知和理解能力,但真正能落地创造价值的,是在特定垂直领域深度打磨的模型和高质量的场景数据。
四、中国具身智能企业版图:谁在造"机器人的大脑"
2026年中国的具身智能赛道已经形成了相对清晰的企业梯队。让我用一个表格来梳理主要的玩家:
| 企业 | 核心技术 | 估值/融资 | 代表产品 | 场景方向 |
|---|---|---|---|---|
| 银河通用 | AstraBrain VLA模型 | 3亿美元A轮,投后估值超30亿美元 | Galbot G1 | 零售、景区 |
| 智元机器人 | 自研VLA+世界模型 | 百亿估值梯队 | 多款工业机器人 | 工业制造 |
| 宇树科技 | 运动控制+智能体 | 百亿估值梯队 | G1人形机器人 | 科研、展示 |
| 自变量机器人 | VLA+AI Infra全栈 | 技术实力7.8/10 | 六轴机械臂平台 | 开发者生态 |
| 星海图 | 世界模型Fast系列 | 百亿估值梯队 | Fast系列模型 | 基础模型 |
| 傅利叶智能 | 人形机器人 | 已完成大额融资 | GR系列 | 康复、服务 |
数据来源:综合自36氪、IT之家、同花顺等2026年Q1公开报道
4.1 银河通用:从春晚舞台到百台太空舱
银河通用是当前中国具身智能赛道最炙手可热的企业之一。2023年5月成立,2025年12月拿下3亿美元A轮融资,投后估值超30亿美元。旗下Galbot G1机器人在2026年春晚舞台上亮相,成为"首个不依赖预设程序、全自主操作的具身机器人"。
技术上,银河通用走的是"仿真合成数据预训练+真实数据对齐"的路线。自研的AstraBrain具身大模型属于VLA架构,专门针对零售场景优化的GroceryVLA模型已在实际场景中部署。截至目前,银河通用已在全国景区和商圈部署超过100个"银河太空舱"用于零售服务,是目前国内具身智能商业化落地规模最大的案例之一。
4.2 开源生态:OpenVLA与开发者工具链
对于开发者来说,OpenVLA是目前最容易上手的VLA模型。它在Hugging Face上开放了完整模型权重(openvla/openvla-v01-7b),GitHub仓库提供了从训练到微调到推理的全流程代码。
下面是一个使用OpenVLA进行机器人操作推理的简化代码示例:
# OpenVLA 推理示例 - 基于 Hugging Face transformers
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch
# 加载预训练模型和处理器
model_name = "openvla/openvla-v01-7b"
processor = AutoProcessor.from_pretrained(
model_name,
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
)
# 准备输入:一张图像 + 一条语言指令
image = Image.open("workspace_scene.jpg")
instruction = "pick up the red cup and place it on the left plate"
# 模型推理
inputs = processor(instruction, image, return_tensors="pt").to(model.device)
action = model.predict_action(**inputs, unnorm_key="bridge_orig")
# action 输出为 7-DoF 向量:
# [x, y, z, roll, pitch, yaw, gripper_openness]
print(f"末端执行器目标位置: x={action[0]:.3f}, y={action[1]:.3f}, z={action[2]:.3f}")
print(f"夹爪状态: {'张开' if action[6] > 0.5 else '闭合'}")
这段代码展示了OpenVLA的基本使用流程。unnorm_key参数指定了动作的反归一化统计量来源(这里用的是Bridge Data V2的统计),将模型输出的归一化动作值还原为真实的物理坐标。这个设计让同一个模型可以适配不同尺寸和配置的机器人工作空间。
不过要注意,直接用预训练模型做zero-shot推理的效果通常不够理想。在实际项目中,你需要在目标任务上做微调。OpenVLA的GitHub仓库提供了基于LoRA的低秩微调脚本,单卡A100可以在几小时内完成微调。
五、VLA模型的实战微调:从预训练到落地
理论讲了这么多,实际中怎么把一个通用VLA模型调教成能在特定场景下可靠工作的"专才"?这中间的差距,正是决定具身智能能否真正落地的关键。
5.1 数据准备:最被低估的环节
微调VLA模型的第一步不是写代码,而是准备高质量的训练数据。一条合格的训练样本需要包含三个要素:
- 视觉观察:机器人第一人称视角的RGB图像(通常640×480或更高分辨率)
- 语言指令:对应的自然语言描述(如"把苹果放进碗里")
- 动作标签:7自由度末端执行器的动作序列(位置+姿态+夹爪)
数据采集的流程通常是这样的:
# 机器人操作数据采集示意(伪代码框架)
import numpy as np
from dataclasses import dataclass
from typing import List
@dataclass
class RobotEpisode:
"""一条完整的机器人操作片段"""
task_description: str # 语言描述
observations: List[np.ndarray] # 每一步的RGB图像
actions: List[np.ndarray] # 每一步的7-DoF动作
timestamps: List[float] # 时间戳
class DataCollector:
def __init__(self, robot, camera, save_dir):
self.robot = robot
self.camera = camera
self.save_dir = save_dir
def collect_episode(self, instruction: str, max_steps: int = 200):
"""采集一条完整的操作片段"""
episode = RobotEpisode(
task_description=instruction,
observations=[], actions=[], timestamps=[]
)
for step in range(max_steps):
# 1. 获取当前视觉观察
obs = self.camera.capture_rgb() # shape: (480, 640, 3)
episode.observations.append(obs)
# 2. 遥操作员(或脚本)提供动作
action = self.robot.get_current_action()
# action shape: (7,) -> [x, y, z, rx, ry, rz, gripper]
episode.actions.append(action)
# 3. 执行动作
self.robot.execute_action(action)
episode.timestamps.append(time.time())
if self.robot.task_completed():
break
# 保存为 RLDS 格式 (OpenVLA 使用的数据格式)
self.save_as_rlds(episode)
return episode
# 使用示例
collector = DataCollector(robot=my_robot, camera=my_cam, save_dir="./data")
collector.collect_episode("pick up the blue block and place it in the green box")
这段代码展示了一个典型的机器人操作数据采集框架。实际项目中,有几个关键注意事项:
数据质量比数量更重要:100条高质量的人工遥操作数据,往往比1000条低质量的自动采集数据更有效。因为VLA模型的微调本质上是在学习"好的操作是什么样的"。
RLDS格式:OpenVLA使用RLDS(Reinforcement Learning Datasets)格式存储数据,这是Google提出的标准格式,支持高效的流式读取和数据增强。如果你有自己的数据格式,需要先转换。
动作空间归一化:不同机器人的工作空间大小差异很大,需要对动作进行全局归一化到[-1, 1]区间。OpenVLA会在预处理时记录每个数据集的均值和标准差,推理时用unnorm_key来反归一化。
5.2 LoRA微调实战
对于大多数开发者来说,全参数微调7B模型既不现实(至少需要4×A100 80GB)也没必要。LoRA(Low-Rank Adaptation)是目前的主流选择:
# OpenVLA LoRA 微调配置示例
from peft import LoraConfig, get_peft_model
lora_config = LoraConfig(
r=16, # LoRA 秩,常用 8-32
lora_alpha=32, # 缩放因子,通常设为 2r
lora_dropout=0.05,
target_modules=[
"q_proj", "v_proj", # Attention 层
"k_proj", "o_proj",
"gate_proj", "up_proj", # MLP 层
"down_proj"
],
task_type="CAUSAL_LM"
)
# 将 LoRA 适配器应用到基础模型
model = get_peft_model(base_model, lora_config)
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in model.parameters())
print(f"可训练参数: {trainable_params:,} / {total_params:,} "
f"({100*trainable_params/total_params:.2f}%)")
# 输出示例: 可训练参数: 13,631,488 / 7,042,836,480 (0.19%)
LoRA微调只训练0.19%的参数,但效果接近全参数微调。单卡A100 40GB就可以运行,对于大多数实验室和小团队来说完全可行。训练数据量方面,针对单一任务的微调通常需要200-500条操作片段,训练时间在2-6小时左右。
六、从酒店到工厂:具身智能的落地场景扫描
技术最终要服务于场景。2026年具身智能的一个显著变化是:从"实验室Demo"走向了"真实场景部署"。让我按场景逐一分析。
工业制造:这是目前落地最快的方向。汇博机器人披露的2026年产品规划显示,他们正在推进从轻量级到重型全谱系产品的覆盖,从通用场景走向特种行业。智元机器人已经在多条产线上部署了VLA驱动的机械臂,处理焊接、装配、检测等任务。
商业服务:银河通用的100多个太空舱是目前最大规模的商业化部署。在银行大堂、景区服务台等场景,具身机器人需要处理大量非结构化的交互——客人可能说"帮我查一下余额",也可能说"洗手间在哪",还可能直接把东西递过来。VLA模型的语言理解能力在这些场景中至关重要。
家庭场景:这是最终目标,但也是最难的方向。家庭环境的多样性远超工业和商业场景——每家的布局不同、物品不同、光照条件不同。目前大多数企业还处于"训练中心练习家务"的阶段,距离真正的家庭部署还有一定距离。
一个关键趋势:IDC在2026年报告中指出,具身智能机器人正在推动整个产业从"传统自动化系统"向"具备感知、学习、决策与行动闭环的智能体"演进。用三个关键词概括就是——模型驱动、软件定义、硬件重构。硬件不再需要针对特定任务定制,软件层通过模型切换来适配不同任务,而模型本身通过持续学习不断进化。
七、冷静看待:具身智能还需要跨越的几道坎
说了这么多好消息,作为技术人,咱们得清醒。具身智能距离真正的大规模普及,还有几道硬坎要迈。
安全性的天花板:机器人毕竟是在物理世界中行动的。一个语言模型输出错一个词,大不了重新生成;但一个机器人执行错一个动作,可能就是安全事故。中国证券报在2026年3月的报道中专门提到,专家建议"筑牢安全防线"。目前行业正在推进2026版人形机器人与具身智能标准体系的建设,但标准从制定到落地还需要时间。
算力的性价比:7B参数的VLA模型要实时运行在机器人端,对硬件的要求不低。虽然OpenVLA-OFT已经将控制频率推到了50Hz,但这背后依然依赖高端GPU或专用加速器。人形机器人要实现大规模商用,"大脑"的计算成本必须降到可接受的范围。
Sim-to-Real的鸿沟:仿真环境和真实世界之间存在难以完全消除的域差距。视觉外观不同、物理特性不同、意外情况不同。EAIDC的"裸考"模式某种程度上就是在测试模型跨越这道鸿沟的能力。目前来看,仿真预训练提供了很好的初始化,但真正可靠的系统仍然需要在真实环境中持续收集数据并迭代。
从单任务到多任务:当前的VLA模型在单一任务(如抓取放置)上已经表现不错,但在连续的多步骤任务(如"把桌子收拾干净")上还有很多不足。这需要模型具备更强的任务规划能力和长期记忆。Google在Gemini Robotics中通过Gemini 2.0的推理能力来弥补这一点,但离人类级别的灵活性还有明显差距。
八、写在最后:别被概念迷惑,关注数据和场景
具身智能无疑是目前AI领域最有想象力的方向之一。VLA大模型的出现,让机器人第一次有了通用的"大脑",不再需要为每个任务从零编程。从EAIDC的"裸考"赛场到银河通用的太空舱,从OpenVLA的开源生态到Gemini Robotics的工业级方案,2026年的具身智能正在以超出预期的速度从实验室走向现实。
但如果你问我现在是不是入场的好时机,我的建议是:关注两个词——数据和场景。
王田苗教授说得对,具身智能的核心突破口是垂类模型和数据。谁掌握了特定场景的高质量操作数据,谁就能训练出真正能用的模型。泛泛而谈"通用机器人"是没有意义的,真正能创造商业价值的是那些能解决具体问题的垂类方案。
对于开发者来说,OpenVLA提供了一个极好的起点。你不需要从零构建VLA模型,基于预训练权重做LoRA微调就能在自己的场景上快速验证。GitHub上的openvla/openvla仓库和HuggingFace上的模型权重是完全开放的,配合便宜的机械臂和相机,几万块钱就能搭建一套实验环境。
对于投资者来说,别被"人形机器人"的概念迷了眼。人形确实是终局形态之一,但短期内有商业化落地能力的是那些专注于特定场景的方案——工业装配、商业服务、仓储物流。看看这些企业有没有真实的客户收入,而不仅仅是融资新闻和宣传视频。
具身智能的2026年,正在经历从"能不能做"到"好不好用"的转变。这个转变可能还需要2-3年,但方向已经很清晰了。
参考链接:
- OpenVLA开源仓库:https://github.com/openvla/openvla
- OpenVLA论文:https://openvla.github.io/
- Gemini Robotics官方介绍:https://deepmind.google/models/gemini-robotics/
- Gemini Robotics论文:https://www.researchgate.net/publication/390213194
- Google机器人基础模型演进:https://robocloud-dashboard.vercel.app/learn/blog/google-robotics-foundation-models-2026
- 全球首届具身智能开发者大会(深圳新闻网):https://www.sznews.com/news/content/2026-03/31/content_31998544.htm
- EAIDC赛事报道(新浪财经):https://cj.sina.cn/articles/view/5952915705/162d248f906702phzk
- IDC 2026具身智能机器人解读:https://www.idc.com/resource-center/blog/模型驱动,软件定义,硬件重构-idc-解读-2026年具身/
- 具身智能产业安全(中国证券报):https://www.cs.com.cn/ssgs/gsxw/202603/t20260314_6541209.html
- 银河通用融资报道(投资界):https://news.pedaily.cn/202603/561347.shtml
- 具身智能融资汇总(36氪):https://eu.36kr.com/zh/p/3726300724738696
- AAAI 2026具身智能Oral论文(知乎):https://zhuanlan.zhihu.com/p/2001695973555058611
- ICLR 2026 VLA论文综述:https://mbreuss.github.io/blog_post_iclr_26_vla.html
- OpenVLA-OFT优化方案:https://openvla-oft.github.io/
- 具身智能大国博弈(人民网):http://theory.people.com.cn/n1/2026/0206/c40531-40660656.html
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)