关于VLA与RL真机部署的种种
前面和大家分享了上次圆桌关于VLA模型、RL、机器人运控与仿真相关的内容,本次我们一起探讨下VLA的部署情况。刘斯坦:接下来,我想过渡一下最后一个话题,是关于模型部署的问题,就是我们把模型部署到机器上,让它在真机上真正的运作。这方面我相信隋老师是这方面是最最权威的,因为咱们地瓜机器人的板子就是专门干这个事儿的。地瓜机器人在考虑这个板子的设计,还有算子的导出各种部署量化压缩的 pipeline 之类
前面和大家分享了上次圆桌关于VLA模型、RL、机器人运控与仿真相关的内容,本次我们一起探讨下VLA的部署情况。
原文链接:关于VLA与RL真机部署的种种
刘斯坦:
接下来,我想过渡一下最后一个话题,是关于模型部署的问题,就是我们把模型部署到机器上,让它在真机上真正的运作。这方面我相信隋老师是这方面是最最权威的,因为咱们地瓜机器人的板子就是专门干这个事儿的。地瓜机器人在考虑这个板子的设计,还有算子的导出各种部署量化压缩的 pipeline 之类的,你们大概是一个怎么样的思路和未来的规划,然后再介绍这块新的板子。
隋伟:
ok,地瓜机器人,其实主要就是面向消费机器人和具身智能场景提供这个 AI 芯片,还有一些软件方案。那现在我们的这个芯片算力是覆盖从5 tops 到560 tops,整个区间其实都有。第一款是我们叫 RDK S100它是80到120 tops的算力,然后还有一款是最新就是上个月我们那个大会上已经发布了。就是 RDK S600是560 tops算力。那个S100的话,现在其实网上是可以售卖了,可以买得到了。然后 RDK S600的话到明年会有一个产品的发布,那个主要其实就是NPU芯片对AI模型进行加速的。那我们现在看到的这些VLM它都有一些这个边缘侧部署的需求,尤其是涉及到高响应的这种场景,或者说那个云端电源成本比较高的一些场景,都会有一些边缘的需求。
这个模型要转到芯片上,一般需要经过量化。我们训练的时候一般比如说用那个BF16,这种float 模型或者半精度的float模型。那在部署的时候,一般不会用这么高的精度,一般都会把它量化成int4,四比特。
先经过量化,把这个float的这些模型,浮点模型转成定点模型,再通过这种工具链进行转换。然后转换成板子上可以运行的模型,最后部署到板子上进行推理,基本上是这样的流程。对,这个过程其实是相对于一些通用芯片就是它会它确实会损失一些通用性,但是它带来的是这种高效率更高一些,然后功耗更低。对S600的话是对大模型的部署,专门做了工具链的优化。所以我们现在像7B左右的模型的话,这种部署运行在边缘侧,这种运行的效率的话是种主流的这种芯片的大概两到三倍左右,就是每秒的这种吞吐量的吞吐量对。
刘斯坦:
那太好了,我们就非常期待,希望我们这个最后市场上看所到之处全是地瓜机器人的芯片就是部署在我们机器人的这个核心这里。接下来我想问一下,咱们说了芯片,我们现在想说模型本身,因为刚才您说的是7B?7B是一个比较偏大的尺寸的模型。然后我想问问于老师,昨天咱们线下沟通时也聊了一下关于模型的尺寸。于老师昨天一再强调基模的重要性,这个东西模型得大,其实就是对于强化学习还是说模型设计者而言,或者科研的人员而言和部署人员其实是存在于某种对立关系的?我希望于老师您说一说。
为什么无论是对于强化学习还是积木而言,模型这个7B因为现在不是说缺数据?7B现在够用吗?还是说你有没有对于不同尺寸的模型,它提升或者说对这个效果提升是一个非常significant 的一个提升,还是说就是受限于比如说强化学习的仿真环境或者是受限于数据,它没有办法得到一个更大的提升,就未来是不是有32B之类的模型的存在?
于超:
我觉得对这个问题我觉得是这样子的就是当下大家看到的很多模型基本是3B、7B,可能因为技术发展只是到了这个阶段还没有像还没有能够到更大的这个模型去发展,只是技术发展总有这么一个趋势。因为当下具身智能的数据量还是没有那么大,还是有限的。比如说3B、7B就是它已经足够去吃到这么多数据了。那因为我的数据不够多,所以我再大的模型我可能也没有训的那么好,因为你参数越多,你需要调的这个东西也越多。7B、3B可能是当下比较妥协的一个选择。
我觉得具身智能模型本身可能还是会逐渐的向更大的模型去发展。但是我们也经常也会讲这个通专融合,就是foundation model 确实是逐渐向大的发展,但也不代表说端侧也要部署那么大的。对于某些任务,比如说7B当下也完全够用。甚至说你可以distill 一个7B的模型放在你的端侧上去运行,我当下会觉得未来逐渐还是会向这个更大的模型上去发展。
那么反过头来说,对于 RL 这件事情。其实RL对于VLA来说,是非常喜欢看到这个基座模型逐渐变大的。这个背后的意义代表着它的本身的能力上限可能在逐渐被提高。RL能够将它的DR曲线拉得更高一些。对于我们来说是希望看到。基座的这个模型的起点越来越好的,那我们能够提升的能力,就是它的整个最后性能也会更好。但 RL本身可能仍然是一个 delta performance,它未必是一个 absolute 的 performance,它可能是一个 relative 的 performance。
那还有一个挑战,一旦这个模型变大了,之后就回过头来说,你又需要很好的处理这个模型大小、高效计算,然后训练等一些问题。对infer可能又会提出很多的挑战,我们也是希望哪个大厂能赶紧 release 一个更大的基模,然后来试试我们的infer。
刘斯坦:
汪老师,我想问问您,我看您的团队最近有一些轻量化的VLA工作?我想聊一聊这方面的工作,说句实在的不是特主流?之前可能大家没考虑这个没考虑过这个问题,现在慢慢的可能出于部署的压力。各种东西,就是征集部署压力都上来了,开始慢慢的有这个轻量化的东西出来了,然后汪老师您能介绍一下您最近就是轻量化。
是怎么把它轻量化?是压缩了还是蒸馏了还是怎么就是您大概觉得以后这个轻量化的方向大概是怎样的?
Tiancai Wang:
其实这点我最近在做的轻量化,它可能指代的不是把模型本身变做小。它其实核心是一个工程化的一个优化方式方法。其实这个工作的话本身是体现在另外一个维度,就是大家可能过于纠结于说这个本身,比如说这个3B的模型或7B的模型,或者说32B 再往72B的模型。就觉得这个速度可能不够,就可能他的关注点是在于说如何通过工程化的优化手段,比如说这些对应的算子如何去做这个compile,一些对应的策略。
就刚才于老师说的,我觉得现在对于具身来说,它可能就是也分大家的关注点就是其实我觉得还是体现的是两个点的。现在有一部分人一定会更多的聚焦在探索当前的这个具身大模型的一个上限,就是不计较太多的细节和代价。
我希望能够看到上限对,但是具体是不是比如说产生资源的浪费也好,可能不care。先把顶天的这部分性能,或者说它的一个智能水平给打上去,然后再考虑另外一部分人可能不管是把这个模型这一部分做小,或者说做一些工程的优化手段。
刘斯坦:
然后最后再想再问问张老师就是关于模型轻量化,或者说是部署方面,就是北京人行或者您的个人的研究工作中是有一些什么考虑和未来的一些就是发力方向?您希望未来比如说您是想做模型编译?说端云协同,还是说你轻量化或者蒸馏,就是您会往哪些方向去思考?
Qiang Zhang:
首先北京人行是肯定不做芯片的,所以我们是地瓜S600的第一批用户,我家里还有一颗隋总送我的这个S600芯片在那里放着。从算法的角度来讲,我们是探索所有的可能。刚才像刘老师讲到的模型的蒸馏量化压缩到汪老师讲到的这种我们在算子层面的优化,这些我们都会有,甚至就是我其实也是于师姐那个框架忠实用户。也觉得说在训练的过程中,速度也是很必要的。
从部署到训练,其实它是一个流程,就是想借着这个问题,我说一下自己的感想就对于 language module 来说,它现在的基座模型变得已经很慢了。我不知道大家有没有这个感觉,就 pretraining 模型,因为语料已经没有了,就大家 pretraining 好的模型已经变得很慢了。但对于车来说,我不知道我跟他们去聊,他们说可能三到六个月会变一次,基座模型,因为可能这三到六个月收上来的数据又去可以去变一次了。
这个我不太懂,就是可能汪老师和隋总可以补充,那对于具身模型,我感觉现在就非常的快。可能你一个月前还完全没有听过这家公司或者这个公司的东西。我一个月后 ok 真的给你放放出来说,我收集了一堆数据,出了一个模型,就它基座模型变得还是很快的。
所以这个东西要求这个赛道上所有的人,你不管是在部署还是在推理,还是在训练的时候,其实都要有一个比较快的速度,这个是比较关键的。对于我们来说的话,我们会 focus 在所有的点上,那些在乎软件的人,其实会自己做硬件。如果你真的很在乎软件,你其实会自己做硬件的,那我们不做芯片是没有这个能力,但是我们真的在乎这个所有过程的速度,其实这个过程中每一个模块儿我们都是会考虑到的对。
Gloria:
我比较有感触,在金融领域的一些头部的公司,也是这个思路。虽然说他们不是具身,也不是自研,他们就是金融领域可能跟大家比较远。他们最终他们追求的目标就是全站自研四个字,就全站自研,就是我所有模块我都要能够实现这么个精确把控。他们最终是为了就我感觉是刚才跟张老师那个思路是比较一致的,就是他们已经是这么做。
具身求职内推来啦
国内最大的具身智能全栈学习社区来啦!
推荐阅读
从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂
工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)
具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂
VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?
1v1 科研论文辅导来啦!
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)