上百台机械臂同台“裸考“：具身智能的VLA大模型正在重写机器人行业的游戏规则

具身智能无疑是目前AI领域最有想象力的方向之一。VLA大模型的出现，让机器人第一次有了通用的"大脑"，不再需要为每个任务从零编程。从EAIDC的"裸考"赛场到银河通用的太空舱，从OpenVLA的开源生态到Gemini Robotics的工业级方案，2026年的具身智能正在以超出预期的速度从实验室走向现实。关注两个词——数据和场景。王田苗教授说得对，具身智能的核心突破口是垂类模型和数据。谁掌握了特定

IRpickstars

198人浏览 · 2026-04-08 08:37:45

IRpickstars · 2026-04-08 08:37:45 发布

上百台机械臂同台"裸考"：具身智能的VLA大模型正在重写机器人行业的游戏规则

大家好，我是摘星，今天我们来聊聊今年3月底在深圳举办的那场"全球首届具身智能开发者大会"——上百台六轴机械臂摆满赛场，清华北大浙大的20支顶尖队伍同台对抗，72小时限时"裸考"，不允许预训练刷分，全靠模型实时感知和决策。这场比赛不只是一场秀，它背后藏着一个正在颠覆整个机器人行业的技术范式：VLA（Vision-Language-Action）大模型。

从Google的Gemini Robotics到开源的OpenVLA 7B，从银河通用的AstraBrain到π0、GR00T N1，2026年的具身智能赛道正在经历一场从"规则驱动"到"模型驱动"的根本性转变。IDC在2026年的报告中用了三个词概括这场变革：模型驱动、软件定义、硬件重构。今天这篇文章，我会带你从VLA模型的技术架构拆到中国具身智能企业的产业落地，中间穿插代码实操和行业数据。不管你是AI工程师、机器人从业者，还是单纯对这个方向感兴趣的读者，看完这篇文章，你会对具身智能的"大脑"有一个非常清晰的认识。

一、具身智能到底是什么？为什么2026年突然爆了？

先说一个基本概念。具身智能（Embodied AI）不是什么新词，它指的是智能体通过物理实体与环境实时交互，实现感知、认知、决策和行动一体化的智能系统。简单说，就是让AI不再只活在屏幕里聊天，而是能"动手干活"。

这个概念提了很多年，但一直卡在一个核心问题上：机器人的"大脑"不够通用。传统的机器人控制系统都是针对特定任务编程的——你想让它抓杯子，就得写一套抓取逻辑；想让它拧螺丝，又得重新来。每换一个任务，工程师都要从零开始调参、写规则、标定传感器。成本高、周期长，工业界勉强能承受，但一到开放环境（比如家庭、商店、医院）就完全不够用了。

转折点出现在2024年底到2025年初。Google DeepMind的RT-X和Gemini Robotics、Physical Intelligence的π0、NVIDIA的GR00T N1……一系列"机器人基础模型"集中亮相。它们的核心思路都一样：用一个大规模的Vision-Language-Action（VLA）模型替代传统控制器，让机器人像人一样"看一眼、想一下、动手做"。

上图展示了两种范式的核心差异。传统方式依赖人工设计的特征提取和规则引擎，每个任务都要定制；VLA模型则端到端地处理视觉和语言输入，直接输出动作指令。这个架构上的转变，才是具身智能在2026年"突然爆了"的根本原因。

数据也能说明问题。2026年第一季度，中国具身智能赛道披露融资事件超过30起，融资总额约200亿元，同比增长58.7%。银河通用、智元机器人、宇树科技等7家企业估值突破百亿元。全球范围内，ICLR 2026收到的VLA相关论文投稿达到164篇，AAAI 2026有6篇具身智能方向的Oral论文。这不是概念炒作，是真金白银和学术资源都在往这个方向倾注。

二、VLA模型架构深度拆解：机器人的"通脑"是怎么炼成的

VLA（Vision-Language-Action）模型是具身智能的核心技术底座。它的名字就说明了架构：把视觉理解、语言理解和动作生成统一在一个模型里。目前最主流的实现方案，是以预训练的Vision-Language Model（VLM）为骨干网络，在此基础上添加Action Head来输出机器人控制信号。

2.1 OpenVLA：开源社区的基础标杆

OpenVLA是目前影响力最大的开源VLA模型，由斯坦福大学、Google DeepMind等机构联合开发，参数规模7B（70亿），在Open X-Embodiment数据集的970K条机器人操作片段上预训练。它的架构可以拆成三个核心模块：

# OpenVLA 模型架构简化示意（基于 transformers 风格）
import torch
import torch.nn as nn
from transformers import PrismaticForConditionalGeneration

class OpenVLAModel(nn.Module):
    def __init__(self, config):
        super().__init__()
        # 1. 双视觉编码器 (Dual Vision Encoder)
        # 使用 SigLIP 和 DINOv2 双分支提取视觉特征
        self.vision_encoder_siglip = SiglipVisionModel(config.siglip_config)
        self.vision_encoder_dinov2 = Dinov2Model(config.dinov2_config)

        # 2. 多模态投影层 (MLP Projector)
        # 将视觉特征映射到语言模型的嵌入空间
        self.vision_projector = nn.Sequential(
            nn.Linear(config.vision_hidden_size, config.llm_hidden_size),
            nn.GELU(),
            nn.Linear(config.llm_hidden_size, config.llm_hidden_size),
        )

        # 3. 语言模型骨干 (LLM Backbone)
        # 基于 Llama 2 7B，处理视觉token和语言指令
        self.language_model = LlamaForCausalLM(config.llm_config)

        # 4. 动作解码头 (Action Head)
        # 将语言模型的输出映射到机器人动作空间
        # 动作被离散化为 256 个 bin (tokenize continuous actions)
        self.action_head = nn.Linear(config.llm_hidden_size, config.num_action_bins)

    def forward(self, images, instruction, proprioceptive=None):
        # Step 1: 提取双分支视觉特征并融合
        vis_feat_1 = self.vision_encoder_siglip(images)
        vis_feat_2 = self.vision_encoder_dinov2(images)
        visual_tokens = self.vision_projector(torch.cat([vis_feat_1, vis_feat_2], dim=-1))

        # Step 2: 将视觉 token 和语言 token 拼接后送入 LLM
        lang_tokens = self.language_model.tokenize(instruction)
        input_tokens = torch.cat([visual_tokens, lang_tokens], dim=1)
        llm_output = self.language_model(inputs_embeds=input_tokens)

        # Step 3: Action Head 输出离散化的动作 token
        action_logits = self.action_head(llm_output.last_hidden_state)
        # 解码为连续动作值 (7-DoF: x, y, z, roll, pitch, yaw, gripper)
        actions = self.decode_actions(action_logits)
        return actions

这段代码展示了OpenVLA的核心数据流。值得注意的几个技术决策：

双视觉编码器的设计：SigLIP负责捕捉高层语义信息（“这是一个杯子”），DINOv2负责提取空间几何特征（“杯子在桌子的左前方”）。两者的互补使得模型同时具备"理解"和"定位"能力。

动作离散化：连续的机器人动作（比如关节角度）被分箱（binning）成256个离散token。这意味着模型输出动作的方式和语言模型输出文字完全一样——都是预测下一个token。这个设计直接复用了LLM的训练和推理基础设施，工程上非常优雅。

本体感觉输入：proprioceptive参数可以接收机器人自身的关节状态信息，让模型"知道自己的手臂在哪里"，形成闭环控制。

2.2 Gemini Robotics：Google的工业级方案

如果说OpenVLA是学术界和开源社区的标杆，那Google DeepMind的Gemini Robotics就是工业界的重量级选手。它建立在Gemini 2.0基础模型之上，通过机器人特定数据的微调，将Gemini的多模态能力（文本、图像、视频理解）扩展到了物理动作输出。

Gemini Robotics的技术路线有几个值得关注的点：

第一，它继承了Gemini 2.0强大的通用推理能力。这意味着你不需要为每个任务单独训练模型，可以像和ChatGPT对话一样告诉机器人"把红色积木放到蓝色盒子左边"，模型就能理解语义并执行。

第二，Google已经和Boston Dynamics达成合作，将Gemini Robotics集成到新版Atlas人形机器人中。这是目前公开的最高调的"大模型+人形机器人"合作案例之一。

第三，在数据策略上，Gemini Robotics延续了Google从RT-1到RT-X的技术积累。Open X-Embodiment数据集本身就是Google主导的项目，汇集了全球21个机构的数据，覆盖22种不同的机器人平台。

2.3 VLA模型的技术挑战与前沿方向

VLA模型虽然架构优雅，但实际部署中面临几个核心挑战：

推理延迟问题：7B参数的模型在机器人端实时运行是个巨大的工程挑战。原始的OpenVLA推理速度较慢，难以满足机器人高频控制的需求。针对这个问题，OpenVLA-OFT（Optimized Fine-Tuning）提出了优化方案：通过并行解码和动作分块（Action Chunking），实现了26倍的动作生成加速，延迟降低3倍，能够达到50Hz的控制频率。Chelsea Finn团队在社交媒体上公布的这一成果，让7B模型在实时控制场景下变得可用。

跨实体泛化：在A机器人上训练的模型，能否直接迁移到B机器人？这是VLA模型走向通用的关键瓶颈。目前Open X-Embodiment数据集已经覆盖21种机器人平台，但跨实体的zero-shot性能仍然有限。AAAI 2026的Oral论文中，多篇聚焦于通过分层/模块化架构来缓解这个问题。

数据瓶颈：高质量的机器人操作数据极其稀缺。与互联网上几乎无限的文本数据不同，让机器人做一件事并记录完整的感知-动作轨迹，成本非常高。银河通用采用的"仿真合成数据预训练+真实数据对齐"策略是目前的主流解法之一。

三、深圳EAIDC大会：一场"裸考"引发的行业地震

2026年3月底在深圳举办的全球首届具身智能开发者大会（EAIDC），是理解这个行业现状的一个绝佳窗口。

3.1 赛事规格与"裸考"规则

这场大会的硬件规格相当硬核：上百台六轴机械臂由自变量机器人提供，超百万算力资源到位，来自清华、北大、浙大等顶尖高校及科研院所的上百支队伍报名参赛，最终20支队伍约60人进入决赛。

但最关键的是比赛规则——“裸考"模式。参赛队伍不允许提前获取测试场景和物体信息，不允许用预训练数据"刷分”。所有队伍在同一个真实环境中，72小时内完成从模型适配到调试部署的全流程。组织方明确传递了一个信号：我们要看的是模型在未知环境下的泛化能力，不是你在已知场景上刷出的漂亮数字。

这与ICLR 2026上VLA研究社区正在热烈讨论的"评估困境"高度呼应——在benchmark上刷高分和在真实世界中干活是两码事。EAIDC的"裸考"模式，某种程度上是在定义具身智能领域的"新评估标准"。

3.2 技术观察：第一视角与零真机预训练

从赛事中浮现出的一个关键技术趋势是"第一视角零真机轨迹预训练"（First-person zero-shot real-robot trajectory pretraining）。简单说，就是模型在训练阶段从未见过真实的物理机器人操作场景，但在比赛中仅凭第一人称相机视角的视觉输入，就能直接输出合理的操作轨迹。

这背后的技术支撑是大规模的仿真预训练和多模态对齐。模型在仿真环境中看过数百万次操作演示（包括第三人称和第一人称视角），学会了从视觉信号到动作指令的映射。当迁移到真实机器人上时，虽然视觉分布存在域差距（domain gap），但通过VLA模型中强大的视觉语言编码器，模型能够进行在线适应。

清华大学王田苗教授在大会期间的一番话非常精辟：“具身智能的核心突破口是垂类模型和数据”。通用基础模型提供了底层的感知和理解能力，但真正能落地创造价值的，是在特定垂直领域深度打磨的模型和高质量的场景数据。

四、中国具身智能企业版图：谁在造"机器人的大脑"

2026年中国的具身智能赛道已经形成了相对清晰的企业梯队。让我用一个表格来梳理主要的玩家：

企业	核心技术	估值/融资	代表产品	场景方向
银河通用	AstraBrain VLA模型	3亿美元A轮，投后估值超30亿美元	Galbot G1	零售、景区
智元机器人	自研VLA+世界模型	百亿估值梯队	多款工业机器人	工业制造
宇树科技	运动控制+智能体	百亿估值梯队	G1人形机器人	科研、展示
自变量机器人	VLA+AI Infra全栈	技术实力7.8/10	六轴机械臂平台	开发者生态
星海图	世界模型Fast系列	百亿估值梯队	Fast系列模型	基础模型
傅利叶智能	人形机器人	已完成大额融资	GR系列	康复、服务

数据来源：综合自36氪、IT之家、同花顺等2026年Q1公开报道

4.1 银河通用：从春晚舞台到百台太空舱

银河通用是当前中国具身智能赛道最炙手可热的企业之一。2023年5月成立，2025年12月拿下3亿美元A轮融资，投后估值超30亿美元。旗下Galbot G1机器人在2026年春晚舞台上亮相，成为"首个不依赖预设程序、全自主操作的具身机器人"。

技术上，银河通用走的是"仿真合成数据预训练+真实数据对齐"的路线。自研的AstraBrain具身大模型属于VLA架构，专门针对零售场景优化的GroceryVLA模型已在实际场景中部署。截至目前，银河通用已在全国景区和商圈部署超过100个"银河太空舱"用于零售服务，是目前国内具身智能商业化落地规模最大的案例之一。

4.2 开源生态：OpenVLA与开发者工具链

对于开发者来说，OpenVLA是目前最容易上手的VLA模型。它在Hugging Face上开放了完整模型权重（openvla/openvla-v01-7b），GitHub仓库提供了从训练到微调到推理的全流程代码。

下面是一个使用OpenVLA进行机器人操作推理的简化代码示例：

# OpenVLA 推理示例 - 基于 Hugging Face transformers
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch

# 加载预训练模型和处理器
model_name = "openvla/openvla-v01-7b"
processor = AutoProcessor.from_pretrained(
    model_name,
    trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

# 准备输入：一张图像 + 一条语言指令
image = Image.open("workspace_scene.jpg")
instruction = "pick up the red cup and place it on the left plate"

# 模型推理
inputs = processor(instruction, image, return_tensors="pt").to(model.device)
action = model.predict_action(**inputs, unnorm_key="bridge_orig")

# action 输出为 7-DoF 向量:
# [x, y, z, roll, pitch, yaw, gripper_openness]
print(f"末端执行器目标位置: x={action[0]:.3f}, y={action[1]:.3f}, z={action[2]:.3f}")
print(f"夹爪状态: {'张开' if action[6] > 0.5 else '闭合'}")

这段代码展示了OpenVLA的基本使用流程。unnorm_key参数指定了动作的反归一化统计量来源（这里用的是Bridge Data V2的统计），将模型输出的归一化动作值还原为真实的物理坐标。这个设计让同一个模型可以适配不同尺寸和配置的机器人工作空间。

不过要注意，直接用预训练模型做zero-shot推理的效果通常不够理想。在实际项目中，你需要在目标任务上做微调。OpenVLA的GitHub仓库提供了基于LoRA的低秩微调脚本，单卡A100可以在几小时内完成微调。

五、VLA模型的实战微调：从预训练到落地

理论讲了这么多，实际中怎么把一个通用VLA模型调教成能在特定场景下可靠工作的"专才"？这中间的差距，正是决定具身智能能否真正落地的关键。

5.1 数据准备：最被低估的环节

微调VLA模型的第一步不是写代码，而是准备高质量的训练数据。一条合格的训练样本需要包含三个要素：

视觉观察：机器人第一人称视角的RGB图像（通常640×480或更高分辨率）
语言指令：对应的自然语言描述（如"把苹果放进碗里"）
动作标签：7自由度末端执行器的动作序列（位置+姿态+夹爪）

数据采集的流程通常是这样的：

# 机器人操作数据采集示意（伪代码框架）
import numpy as np
from dataclasses import dataclass
from typing import List

@dataclass
class RobotEpisode:
    """一条完整的机器人操作片段"""
    task_description: str           # 语言描述
    observations: List[np.ndarray]  # 每一步的RGB图像
    actions: List[np.ndarray]       # 每一步的7-DoF动作
    timestamps: List[float]         # 时间戳

class DataCollector:
    def __init__(self, robot, camera, save_dir):
        self.robot = robot
        self.camera = camera
        self.save_dir = save_dir

    def collect_episode(self, instruction: str, max_steps: int = 200):
        """采集一条完整的操作片段"""
        episode = RobotEpisode(
            task_description=instruction,
            observations=[], actions=[], timestamps=[]
        )

        for step in range(max_steps):
            # 1. 获取当前视觉观察
            obs = self.camera.capture_rgb()  # shape: (480, 640, 3)
            episode.observations.append(obs)

            # 2. 遥操作员（或脚本）提供动作
            action = self.robot.get_current_action()
            # action shape: (7,) -> [x, y, z, rx, ry, rz, gripper]
            episode.actions.append(action)

            # 3. 执行动作
            self.robot.execute_action(action)
            episode.timestamps.append(time.time())

            if self.robot.task_completed():
                break

        # 保存为 RLDS 格式 (OpenVLA 使用的数据格式)
        self.save_as_rlds(episode)
        return episode

# 使用示例
collector = DataCollector(robot=my_robot, camera=my_cam, save_dir="./data")
collector.collect_episode("pick up the blue block and place it in the green box")

这段代码展示了一个典型的机器人操作数据采集框架。实际项目中，有几个关键注意事项：

数据质量比数量更重要：100条高质量的人工遥操作数据，往往比1000条低质量的自动采集数据更有效。因为VLA模型的微调本质上是在学习"好的操作是什么样的"。

RLDS格式：OpenVLA使用RLDS（Reinforcement Learning Datasets）格式存储数据，这是Google提出的标准格式，支持高效的流式读取和数据增强。如果你有自己的数据格式，需要先转换。

动作空间归一化：不同机器人的工作空间大小差异很大，需要对动作进行全局归一化到[-1, 1]区间。OpenVLA会在预处理时记录每个数据集的均值和标准差，推理时用unnorm_key来反归一化。

5.2 LoRA微调实战

对于大多数开发者来说，全参数微调7B模型既不现实（至少需要4×A100 80GB）也没必要。LoRA（Low-Rank Adaptation）是目前的主流选择：

# OpenVLA LoRA 微调配置示例
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=16,                  # LoRA 秩，常用 8-32
    lora_alpha=32,         # 缩放因子，通常设为 2r
    lora_dropout=0.05,
    target_modules=[
        "q_proj", "v_proj",      # Attention 层
        "k_proj", "o_proj",
        "gate_proj", "up_proj",   # MLP 层
        "down_proj"
    ],
    task_type="CAUSAL_LM"
)

# 将 LoRA 适配器应用到基础模型
model = get_peft_model(base_model, lora_config)
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in model.parameters())
print(f"可训练参数: {trainable_params:,} / {total_params:,} "
      f"({100*trainable_params/total_params:.2f}%)")
# 输出示例: 可训练参数: 13,631,488 / 7,042,836,480 (0.19%)

LoRA微调只训练0.19%的参数，但效果接近全参数微调。单卡A100 40GB就可以运行，对于大多数实验室和小团队来说完全可行。训练数据量方面，针对单一任务的微调通常需要200-500条操作片段，训练时间在2-6小时左右。

六、从酒店到工厂：具身智能的落地场景扫描

技术最终要服务于场景。2026年具身智能的一个显著变化是：从"实验室Demo"走向了"真实场景部署"。让我按场景逐一分析。

工业制造：这是目前落地最快的方向。汇博机器人披露的2026年产品规划显示，他们正在推进从轻量级到重型全谱系产品的覆盖，从通用场景走向特种行业。智元机器人已经在多条产线上部署了VLA驱动的机械臂，处理焊接、装配、检测等任务。

商业服务：银河通用的100多个太空舱是目前最大规模的商业化部署。在银行大堂、景区服务台等场景，具身机器人需要处理大量非结构化的交互——客人可能说"帮我查一下余额"，也可能说"洗手间在哪"，还可能直接把东西递过来。VLA模型的语言理解能力在这些场景中至关重要。

家庭场景：这是最终目标，但也是最难的方向。家庭环境的多样性远超工业和商业场景——每家的布局不同、物品不同、光照条件不同。目前大多数企业还处于"训练中心练习家务"的阶段，距离真正的家庭部署还有一定距离。

一个关键趋势：IDC在2026年报告中指出，具身智能机器人正在推动整个产业从"传统自动化系统"向"具备感知、学习、决策与行动闭环的智能体"演进。用三个关键词概括就是——模型驱动、软件定义、硬件重构。硬件不再需要针对特定任务定制，软件层通过模型切换来适配不同任务，而模型本身通过持续学习不断进化。

七、冷静看待：具身智能还需要跨越的几道坎

说了这么多好消息，作为技术人，咱们得清醒。具身智能距离真正的大规模普及，还有几道硬坎要迈。

安全性的天花板：机器人毕竟是在物理世界中行动的。一个语言模型输出错一个词，大不了重新生成；但一个机器人执行错一个动作，可能就是安全事故。中国证券报在2026年3月的报道中专门提到，专家建议"筑牢安全防线"。目前行业正在推进2026版人形机器人与具身智能标准体系的建设，但标准从制定到落地还需要时间。

算力的性价比：7B参数的VLA模型要实时运行在机器人端，对硬件的要求不低。虽然OpenVLA-OFT已经将控制频率推到了50Hz，但这背后依然依赖高端GPU或专用加速器。人形机器人要实现大规模商用，"大脑"的计算成本必须降到可接受的范围。

Sim-to-Real的鸿沟：仿真环境和真实世界之间存在难以完全消除的域差距。视觉外观不同、物理特性不同、意外情况不同。EAIDC的"裸考"模式某种程度上就是在测试模型跨越这道鸿沟的能力。目前来看，仿真预训练提供了很好的初始化，但真正可靠的系统仍然需要在真实环境中持续收集数据并迭代。

从单任务到多任务：当前的VLA模型在单一任务（如抓取放置）上已经表现不错，但在连续的多步骤任务（如"把桌子收拾干净"）上还有很多不足。这需要模型具备更强的任务规划能力和长期记忆。Google在Gemini Robotics中通过Gemini 2.0的推理能力来弥补这一点，但离人类级别的灵活性还有明显差距。

八、写在最后：别被概念迷惑，关注数据和场景

但如果你问我现在是不是入场的好时机，我的建议是：关注两个词——数据和场景。

王田苗教授说得对，具身智能的核心突破口是垂类模型和数据。谁掌握了特定场景的高质量操作数据，谁就能训练出真正能用的模型。泛泛而谈"通用机器人"是没有意义的，真正能创造商业价值的是那些能解决具体问题的垂类方案。

对于开发者来说，OpenVLA提供了一个极好的起点。你不需要从零构建VLA模型，基于预训练权重做LoRA微调就能在自己的场景上快速验证。GitHub上的openvla/openvla仓库和HuggingFace上的模型权重是完全开放的，配合便宜的机械臂和相机，几万块钱就能搭建一套实验环境。

对于投资者来说，别被"人形机器人"的概念迷了眼。人形确实是终局形态之一，但短期内有商业化落地能力的是那些专注于特定场景的方案——工业装配、商业服务、仓储物流。看看这些企业有没有真实的客户收入，而不仅仅是融资新闻和宣传视频。

具身智能的2026年，正在经历从"能不能做"到"好不好用"的转变。这个转变可能还需要2-3年，但方向已经很清晰了。

参考链接：

OpenVLA开源仓库：https://github.com/openvla/openvla
OpenVLA论文：https://openvla.github.io/
Gemini Robotics官方介绍：https://deepmind.google/models/gemini-robotics/
Gemini Robotics论文：https://www.researchgate.net/publication/390213194
Google机器人基础模型演进：https://robocloud-dashboard.vercel.app/learn/blog/google-robotics-foundation-models-2026
全球首届具身智能开发者大会（深圳新闻网）：https://www.sznews.com/news/content/2026-03/31/content_31998544.htm
EAIDC赛事报道（新浪财经）：https://cj.sina.cn/articles/view/5952915705/162d248f906702phzk
IDC 2026具身智能机器人解读：https://www.idc.com/resource-center/blog/模型驱动，软件定义，硬件重构-idc-解读-2026年具身/
具身智能产业安全（中国证券报）：https://www.cs.com.cn/ssgs/gsxw/202603/t20260314_6541209.html
银河通用融资报道（投资界）：https://news.pedaily.cn/202603/561347.shtml
具身智能融资汇总（36氪）：https://eu.36kr.com/zh/p/3726300724738696
AAAI 2026具身智能Oral论文（知乎）：https://zhuanlan.zhihu.com/p/2001695973555058611
ICLR 2026 VLA论文综述：https://mbreuss.github.io/blog_post_iclr_26_vla.html
OpenVLA-OFT优化方案：https://openvla-oft.github.io/
具身智能大国博弈（人民网）：http://theory.people.com.cn/n1/2026/0206/c40531-40660656.html

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

收藏！春晚落幕后，全网刷屏的机器人，藏着程序员必抓的大模型风口

DAMO开发者矩阵

九鼎v821ai产品级板

CPU主频也比同类产品要高出一大截，最关键的是CPU价格和友商不相上下，还自带了WIFI蓝牙，更厉害的是九鼎即将推出支持双频WIFI V821B主板，妥妥的击中了用户的痛点。九鼎创展已经量产了一款AI陪伴机器人，它能够个性化定制，智能交互，主动感知，依赖，娱乐指令，实用功能，进阶关怀功能。它可以支持语音打断提醒，比如你跟他说：K宝K宝，放一首薛之谦的演员，就会立刻放歌，如果歌放到一半，你说：K宝。

DAMO开发者矩阵

轮胎行业智能工厂厂内物流方案：科捷智能的全工序覆盖实践

科捷智能的轮胎行业智能工厂物流方案，以“覆盖全工序”为核心理念，集成自研的堆垛机、EMS、AGV、龙门机器人等核心设备及WMS、WCS、MES等智能管理系统，实现从原材料存储、生产物流配送到成品仓储与发货的全流程自动化与智能化管理。结合核心内容池中的通用效益数据，科捷智能智能仓储方案可实现空间利用率提升200%-600%，人力成本减少60%-90%，库存准确率达99.99%。