20251209_135957_[具身智能SOTA__GigaAI&北大&清华等]_Swif

阅读的第一篇机械臂具身智能相关论文，该研究分支聚焦于桌面级具身智能任务，如清理桌面、折叠衣物等，而非人形机器人。论文发表时间: 2025年11月30日发布不到一周，新鲜出炉，截至2025年12月6日暂未公开源码。

程序猿李巡天

1022人浏览 · 2025-12-09 14:03:46

程序猿李巡天 · 2025-12-09 14:03:46 发布

阅读的第一篇机械臂具身智能相关论文，该研究分支聚焦于桌面级具身智能任务，如清理桌面、折叠衣物等，而非人形机器人。

论文发表时间: 2025年11月30日

发布不到一周，新鲜出炉，截至2025年12月6日暂未公开源码。

摘要

基于预训练VLM的VLA模型展现出强大潜力，但其庞大的参数量限制了实际应用。为缓解这一问题，一些研究者尝试采用轻量级VLM，却牺牲了时空推理（spatiotemporal reasoning）能力。尽管有方法建议通过引入额外3D输入来改善，但通常仍需依赖大型VLM来融合3D与2D输入，且仍缺乏时间（temporal ）理解能力。为此，我们提出SwiftVLA架构：该设计在保持高效性的同时，通过4D理解能力增强紧凑模型。具体而言，我们的方法采用预训练的streamVGGT（译者注：清华大学2025年7月所提模型），其时序缓存（temporal cache）可从2D图像中提取4D特征。然后，为了增强VLM利用2D图像和4D特征的能力，我们引入了Fusion Tokens，这是一组可学习的tokens，经过未来预测目标的训练，可以生成用于动作生成的统一表示。最后，我们引入了一种掩码和重建策略，该策略将4D输入掩码到VLM并训练VLA来重建它们，使VLM能够学习有效的4D表示，并允许4D分支在推理时被丢弃，性能损失最小。在真实的和模拟环境中的实验表明，SwiftVLA的性能优于轻量级基线，可与7倍大的VLA竞争，在边缘设备上实现相当的性能，同时速度提高18倍，内存占用减少12倍。

一、介绍

VLA模型代表了机器人领域的一种新的范式。利用大型预训练的视觉语言模型（VLM）的表征能力和推理优势，将自然语言指令和视觉观察直接映射到动作。尽管它们有希望，但现实世界的部署受到一个重大障碍的阻碍：VLM的大量参数导致高推理延迟和内存使用，这对于资源受限的机器人平台上的实时控制是无法满足的。

因此，最近的研究通过缩小VLM的大小或减少网络层的数量来减少模型容量，从而实现在边缘设备上的部署。而且，压缩模型会带来推理能力的下降。这使得很难捕捉3D空间信息，而3D空间信息对于VLA计划精确的行动至关重要，导致定位不佳和轨迹不精确，并降低了任务成功率。

图1. PaliGemma-3B等大型VLM在空间推理方面优于小型VLM，正确答案显示为绿色，错误答案显示为红色。这种性能优势使基于它的π0能够实现更高的成功率，尽管与基于小型VLM的SmolVLA相比，推理速度较慢。然而，SwiftVLA增强了小型VLA模型的时空动力学，同时保留了速度优势。成功率和速度在NVIDIA Jetson Orin上进行测试。

如上图1所示，较小的VLM模型，如SmolVLM-0.5B在空间推理任务中表现明显不佳，例如回答“最左边的碗是什么颜色？因此，虽然基于SmolVLM-0.5B的SmolVLA表现出比基于PaliGemma-3B 的π0更快的推理速度，但其任务成功率明显较低，因为复杂的操纵任务通常需要更强的时空推理和场景理解能力。

图2.（a）仅使用2D特征作为VLM的输入，这导致有限的时空感知。（B）直接融合方法在大型VLM内结合空间和2D特征。（c）引入专用空间分支的解耦设计，导致较大的参数开销。（d）SwiftVLA利用预训练模型（译者注：指清华大学于2025年7月提出的模型streamVGGT，4D几何重建长期以来一直是计算机视觉领域的一项基础任务，旨在从一组动态图像中估计3D几何结构）来提取4D特征，并应用特征重建目标来对齐4D和2D表示。此外，Fusion Tokens和future prediction objective的引入，以加强跨模态集成。4D输入和辅助头在推理删除以保持效率。

因此，最近的工作已经探索了集成3D和4D信息以增强VLA对复杂环境的感知。然而，现有的融合方法对于轻量级架构仍然是次优的。如图2（B）所示，一些方法直接将3D特征与大VLM内的2D表示融合。虽然与仅使用2D输入的图2（a）相比，这提高了空间感知，但它必须依赖于重量级VLM来处理跨模态融合。为了减轻这种依赖性，其他方法（图2（c））通过引入额外的分支将3D处理与VLM解耦。然而，这种设计显著地增加了参数开销，使得其不适合于紧凑模型。总之，如图2（a-c）所示，现有方法仍然不能有效地平衡VLA的轻量设计与对鲁棒且可靠的时空感知的实际需要。

在本文中，我们提出了SwiftVLA，这是一种基于紧凑VLM（译者注：即SmolVLM，2025年4月发布）构建的轻量级VLA模型，它以最小的计算成本整合了4D时空信息。如图2（d）所示，SwiftVLA将4D表示作为辅助输入，并采用重建目标来从4D特征学习时空动态，使模型能够在推理过程中丢弃它们，同时保持与全4D输入相当的性能。与此同时，Fusion Tokens被引入并由future prediction目标监督，以促进有效的跨模态融合。具体而言，SwiftVLA将预训练的streamVGGT与temporal cache集成，以将streaming frames递增地转换为4D特征。该缓存支持跨帧的特征重用并提供时间上下文。同时，由于4D提示直接来自标准视觉输入，不需要额外的传感器，如深度相机或LiDAR。为了在紧凑的VLM中有效融合2D和4D特征，我们引入了可学习的Fusion Tokens来统一各种模态的表示。它们的输出由机器人末端执行器的未来轨迹（future trajectory）来监督，以鼓励任务相关的学习。最后，我们提出了一种掩模和重建策略，其中在训练期间，SwiftVLA以一定的概率随机屏蔽2D或4D模态，并要求动作专家重建被屏蔽的特征，这鼓励了几何和动态感知表示的学习。这使得模型在推理过程中能够实现与4D输入相当的性能，即使没有它们，最小化4D输入的开销，同时保留时空建模能力。

本文的主要贡献概括如下：

本文提出了SwiftVLA方法，该方法以最小的代价将4D时空信息集成到一个轻量级的VLA模型中，SwiftVLA提取4D特征，并采用掩蔽和重构的训练策略，将4D知识提取到VLA中，从而使模型在推理过程中保持与4D输入相当的性能，而只需要2D输入。
我们通过可学习的Fusion Tokens将2D和4D特征融合在轻量级的VLM中，并在机器人手臂未来末端执行器轨迹的监督下进行训练，以产生统一的动作感知表示。
在仿真和真实的机器人上进行的大量实验表明，SwiftVLA的性能相当于7倍大的基线。在边缘设备上，它的运行速度比π0快18倍，使用的内存少12倍。

二、相关工作

2.1.轻量级VLA模型

VLA模型的最新进展通过端到端训练将VLM骨干与动作模块集成。OpenVLA引入了在公共数据集上训练的7B参数模型来生成离散的动作tokens。为了克服连续控制中tokenizing actions的限制，π0使用基于扩散的解码器来直接生成连续动作。然而，这些模型具有大量参数，导致高训练成本和显著的推理延迟。

为了解决这个问题，有几种方法已经转向更轻的VLA设计。基于OpenVLA，MiniVLA用更小的模型取代主干，从而将总尺寸降低到1B参数。TinyVLA引入了一个扩散策略解码器，直接生成连续的多步动作序列，以避免自回归生成的高延迟，并采用LoRA进行参数有效的微调。为了进一步减轻模型，SmolVLA使用像素洗牌来限制每个帧的tokens并跳过VLM层的子集，最终将参数计数压缩到约0.5B。然而，为了实现模型轻量化，这些方法通常依赖于减少主干参数，这导致VLA模型的空间推理和细粒度控制能力的退化。

2.2. VLA模型中的3D感知

3D感知对于增强机器人操作能力至关重要。

最近的研究试图将3D特征直接结合到VLM中以增强其几何感知，如图2（B）所示。3D-VLA提取空间嵌入并将其编码为VLM嵌入以改善时空推理。SpatialVLA将3D位置编码和自适应动作网络引入VLM以改善空间理解。Evo 0通过利用VGGT获得3D特征，将3D几何特征注入VLA。然而，2D像素和3D几何形状之间的域间隙很大，并且直接将两者注入VLM通常需要更大的VLM以实现更好的对齐和融合。一些方法还尝试微调VLM以进行时空推理，但是这通常依赖于大量的时间注释数据，收集这些数据是昂贵的。

因此，如图2（c）所示，一些方法采用引入空间分支的解耦设计。PointVLA 将点云视为辅助调节信号，并将3D处理从2D视觉编码器中分离出来，使模型能够利用几何线索，同时保持预训练的2D表示的完整性。GeoVLA采用多模态输入的并行分支，并利用特定模态的专家来实现融合。然而，这些方法仅关注3D信息，忽略时间动态，同时增加内存占用和推理延迟。最近，4DVLA通过利用基于历史相似性的关键帧采样策略并生成3D感知的空间视觉令牌，将时间维度纳入VLA建模。虽然这种方法增强了时空感知，但对多帧进行采样会引入额外的推理开销。相比之下，SwiftVLA保持轻量化设计，同时以更低的成本注入4D提示。

三、方法

3.1 模型整体架构

如下图3所示，SwiftVLA由两个连接的组件组成：一个预训练的轻量级VLM Smolvlm和一个动作专家。VLM处理输入，使用预训练的streamVGGT提取2D和4D特征。同时，fusion tokens被引入VLM，以更好地利用2D和4D特征，并由末端执行器轨迹预测监督。然后，VLM融合2D和4D特征、fusion tokens和其他输入，以生成中间隐藏状态，用作动作专家模型执行动作预测的输入。此外，在训练期间，我们采用掩蔽和重构策略，其中2D或4D特征被掩蔽，使得它们不有助于动作生成，这种策略鼓励模型利用跨模态线索，并在推理过程中以最小的性能损失去除4D特征输入，从而保持轻量级设计。

图3. SwiftVLA的pipeline。我们首先从输入图像中提取2D和4D特征。一个轻量级的VLM（Smolvlm）用Fusion Tokens处理2D和4D特征以实现跨模态集成。Fusion Tokens的输出由机器人末端执行器的未来轨迹监督。在训练期间，我们随机屏蔽2D或4D特征，我们要求动作专家在学习生成动作的同时重建被掩蔽的特征，并给出了在随机掩蔽4D特征的情况下的attention mask。在这种情况下，4D特征被排除在VLM attention 之外，模型需要从其他特征重建4D特征。

对于每一个time step t，给3个视角的view：S = [left, right, front]。机器人的输入：natural language instruction l, multi-view observationsFusion Tokens与2D 4D特征交互。通过轻量级的VLM 使用proprioceptive embeddings 和语言嵌入，从而产生统一的表示：

在融合表示中，对应于Fusion Tokens 的部分被解码以预测末端执行器轨迹，其中从GT轨迹进行显式监督，从而使得的中间隐藏状态能够学习轨迹感知的跨模态对准。同时，的中间隐藏状态，被作为动作专家的hierarchical条件特征。动作专家被公式化为条件扩散模型。给定噪声样本，并以VLM特征为条件，它产生潜在动作：

我们用两个互补的头来解码：第一个头预测动作的扩散噪声，第二个头重建被掩蔽的特征表示。重建头使用辅助目标来训练，以改善跨模态对齐，并在推理时被丢弃，从而确保轻量级设计和快速推理。

3.2.增量式4D特征提取

输入：观测图，t是time step，v是3个视角的view。

输出：输出2个特征图进入VLM。

图4. 4D特征提取的过程。在每一步中，顺序处理多视图观察，并从cache加载上下文信息以进行时间attention。生成的4D特征更新到cache并交付给VLM。

3.3 Fusion Tokens

Fusion Tokens是一组可学习的token，与2D特征和4D时空特征交互，并直接由末端执行器的未来轨迹监督。Fusion Tokens产生的键和值，以及来自其他tokens的键和值，形成了动作专家用来生成动作块的条件信号。具体来说，Fusion Tokens通过VLM内的 cross-attention与由2D特征、4D特征、语言嵌入和状态嵌入组成的聚合多模态tokens序列交互，产生融合表示，融合表示用作感知输出，并通过末端执行器轨迹预测进行优化：

3.4 Mask and Reconstruct Strategy

该策略在训练期间利用4D监督信号来构建几何感知表示，同时在推理过程中丢弃4D特征输入，以最小的性能下降保持模型效率。我们的方法鼓励模型通过结构化掩蔽和重建来构建几何感知表示，从而将丰富的空间和时间知识提取到学习的特征中。

训练。在训练过程中，我们采用随机掩蔽策略，以一定的概率将掩蔽应用于2D或4D特征。在此设置下，VLA需要基于剩余模态预测动作，同时重建掩蔽的特征。如图3所示，我们可视化了在训练过程中应用于4D特征的掩蔽操作。灰色和白色块分别表示固定的可见和不可见标记，而粉色块表示经历随机掩蔽的标记，将原本可见的token变为不可见的token，同时，重建损失定义如下：

其中每个λ作为目标之间的平衡系数。这种设计鼓励模型学习更全面和几何感知的4D表示，而不是依赖于单一的动作预测模态。同时，这种机制使模型能够隐式地重建和推理4D空间结构，即使显式的4D特征输入不可用。

推理。为了进一步减少总体参数数量并便于在边缘平台上部署，我们在推理过程中仅保留2D特征分支。在此阶段，4D特征提取器、重建头和轨迹头被删除，因为它们仅用于训练期间的辅助监督。因此，部署的模型仅由VLM和动作专家组成，形成一个紧凑而有效的架构。部署模型的总参数数等于这两个组件的总和。尽管其轻量级性质，这种设计保留了通过掩蔽训练学习的强大时空感知能力，从而能够在真实世界的机器人平台上高效可靠地部署。

四、实验

4.1 实验设定

评估方法。我们主要使用成功率（SR，success rate）以及平均轨迹长度作为我们的评估指标。在模拟中，成功完成任务的SR为1，否则为0。对于真实世界的评估，我们使用详细的评分系统，其中在拾取-放置任务中，抓取物体的得分为0.5，将物体放置在目标位置的得分为0.5。

基线。我们主要选择了不同参数大小的VLA模型作为基线与SwiftVLA进行比较。对于大型模型，我们选择了当前最先进的模型π0和GO-1。对于较小的模型，我们选择了TinyVLA和SmolVLA。对于SwiftVLA，我们采用了两种推断配置：一个在推理期间使用4D输入，称为具有4D输入的SwiftVLA，另一个在推理期间不使用4D输入，简称为SwiftVLA。两种配置共享相同的训练权重。此外，在LIBERO基准中，我们比较了几种其他算法，分为三类：时空增强VLA模型，其利用3D或4D输入；小VLA模型，其采用较小的VLM；以及大VLA模型，其涉及具有超过3B参数的VLA模型。

实验细节。使用SmolVLM作为VLM骨干。完整的模型包括大约4.5亿个参数，其中大约1亿个被分配给动作专家模块。同时，我们使用两阶段训练过程在公共数据集上预训练我们的模型（译者注：即在第一个数据集上不使用4D输入训练，第二个数据集上使用4D输入训练）。

4.2 仿真数据集上的结果

在RoboTwin 2.0与LIBERO两个平台上进行仿真评估。对于RoboTwin 2.0，我们的实验设置考虑了三类任务：Short-Horizon，Medium-Horizon和Long-Horizon，每类选择两个子任务，对于每个子任务，我们生成50个演示轨迹，然后用于后训练。

RoboTwin 2.0：

对于LIBERO基准，我们在四个任务套件上进行实验：LIBERO-Spatial，LIBERO-Object，LIBERO-Goal和LIBERO-Long。

LIBERO：

表1.模拟中任务成功率和平均轨迹长度的比较。最好的结果用粗体标记，次好的结果用下划线标记。†表示使用与SwiftVLA相同的配置进行预训练和微调的模型。

掩蔽和重建策略使SwiftVLA在推理过程中不使用4D输入，仍然保持与具有4D输入的SwiftVLA相当的竞争力。此外，SwiftVLA在所有三个任务类别中都表现出强大的性能，与π0相比，表现出竞争能力，而仅使用其参数的约15%。同时，TinyVLA和SmolVLA仍然明显落后于π0，主要是由于它们较小的VLM骨干，缺乏足够的能力来建模长期的时空依赖性。相比之下，SwiftVLA引入了4D表示来增强其时空理解，比SmolVLA提高了82.76%的SR。

表3. LIBERO上的方法比较。最好的结果用粗体标记，次好的结果用下划线标记。†表示使用与SwiftVLA相同的配置进行预训练和微调的模型。

4.3 真实世界评估

为了评估该方法在真实的世界中的有效性，我们使用AgileX Piper六自由度机械臂进行了抓取实验，并由NVIDIA RTX 4090 GPU提供计算支持。此外，我们设计了一系列真实世界的任务，包括清洁桌子，扔瓶子和堆叠碗，如表2所示，我们的方法在使用较少参数的情况下，与π0相比表现出了较强的性能，并且显著优于大小相当的SmolVLA。

图5.相同初始姿态下SmolVLA和SwiftVLA的对比。在执行过程中，SmolVLA无法准确抓取，因为末端执行器错过目标并与物体发生碰撞，导致其移位，存在安全风险。相比之下，SwiftVLA成功完成抓取，定位准确，控制稳定，表现出优秀性能。

如图5所示，我们在相同的初始物体放置情况下，对SmolVLA和SwiftVLA进行了比较。在执行过程中，SmolVLA由于对几何信息的理解有限，无法实现精确抓取，同时末端执行器与目标物体发生碰撞并发生位移，可能导致任务失败或安全隐患。相比之下，SwiftVLA凭借其上级的空间感知和控制能力成功地进行了稳定和准确的抓取。

真实世界的任务设置。如图8和图9所示，我们说明了我们的实验中使用的任务，涵盖四个操作任务。

清洁书桌：随机颜色的碗和盘子放在桌子上。机器人必须将这两种物品放入篮子中，同时确保盘子位于底部。

扔瓶子：场景中放置了一个装有随机变化液体量的塑料瓶，机器人需要将其捡起来并将其扔进垃圾桶。

堆叠碗：两个碗随机放置在桌子上，机器人需要正确堆叠它们。

折叠布：一件衣服平放在桌子上，机器人按照预定的顺序折叠它，然后将折叠好的衣服移动到指定的位置。

论文附录中的高难度任务叠衣服性能对比：

4.4 边缘部署

为了评估边缘设备上VLA的部署效率，我们采用NVIDIA Jetson Orin作为我们的目标平台。如表4所示，我们报告了每个模型的推理时间和参数计数。

4.5.消融研究

在本节中，我们在RoboTwin 2.0平台上进行实验，以解决以下问题。

Q1. 4D特征如何影响任务成功？我们比较了使用2D输入和将2D输入与4D特征相结合的两种设置，如表5的第一行和第二行所示。

结果表明，仅依赖2D输入会导致SR较低。4D特征了产生实质性的改善，这表明4D特征为动作规划提供了更强的表示。

Q2：Fusion Token起到什么作用？Fusion Token的设计目的是集成4D和2D特征，使用2D末端执行器的轨迹作为轨迹预测监督。在表5的第二行和第三行中，我们比较了使用和不使用Fusion Token的模型，并观察到启用Fusion Token的显著改进。这是因为小型模型很难充分利用输入的4D信息。Fusion Token的引入，沿着目标任务的设计，有助于指导模型有效地使用2D和4D提示，导致改进跨模态对准和更有效的时间线索利用。

Q3.掩模和重建策略的效果如何？我们在训练过程中采用了掩码和重建策略，其中2D或4D特征以固定概率随机丢弃，VLA负责重建掩码特征。目的是使模型能够保持与完整4D输入相当的性能，即使在推理过程中4D信息丢失。

如表6所示，我们比较了不同的训练策略，并在有和没有4D输入的推理下评估了性能。结果表明，在推理过程中直接去除4D输入，而不应用任何策略，会导致性能显著下降，当模型变得过度依赖于4D提示进行预测时，引入4D特征掩蔽可以消除这种依赖性，并在4D输入不可用时保留部分性能。此外，结合特征重建有助于在训练期间将4D信息提取到VLA中，使模型能够实现与全4D输入相当的性能。即使在推理过程中没有4D特征。此外，我们发现适度掩蔽2D特征可以鼓励模型更好地利用潜在的4D几何线索，并增强跨模态一致性，如表6的最后一列所示。

Q4. cached memory size K如何影响性能？我们分析了在训练过程中选择的缓存内存大小K如何影响模型性能。我们评估了K ∈ {3，4，5，6}的四个固定设置和在每个训练步骤中采样K ∈ {3，4，5，6}的随机策略。

如表7所示，随机化策略优于所有固定长度的基线，表明暴露于temporal horizons process 显著增强了适应性。

五、总结

本文提出了SwiftVLA，一个轻量级的框架，实现强大的时空推理，同时保持设计效率。具体来说，我们采用了一个streamVGGT与时间缓存，提取4D特征，并将它们集成到VLM中，以增强空间和时间建模。为了弥合2D和4D特征之间的差距，我们引入了Fusion Token，其表示由末端效应器的未来轨迹监督，有效地捕获集成的多模态信息。此外，采用掩模和重建策略将4D知识提取到VLA中，同时在推理过程中忽略4D输入以最大限度地降低性能。实验表明，SwiftVLA匹配模型的性能，参数增加多达7倍，同时在边缘设备上提供高达18倍的推理速度和12倍的内存占用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。