沈劭劼&周博宇等团队|仅需文本+少量2D标注!实现未知开放环境下的自动三维扫描
所以他们把系统做成一个闭环:先把“你想扫什么”在真实世界里对齐出来(感知),再把“没看见的部分”补成一个可用的全局结构猜测(预测),最后在这个全局猜测上做覆盖规划,同时保持实时避障(规划)。FlyCo 的价值不止是“把某个模型接到无人机上”,而是把基础模型的能力落成了一种更像机器人系统的形态:感知负责把语义目标对齐到真实世界,预测负责把局部观测变成全局结构前瞻,规划负责把前瞻变成可执行且安全的飞行

「实现开放世界零先验3D重建」
目录
在野外让无人机做 3D 扫描,真正难的不是“飞起来”,而是“飞得像个懂事的人”。你说一句“扫那座山谷里的城堡”,人类飞手会立刻找对目标、脑子里补出它没被看到的背面轮廓,然后边飞边绕开树和障碍,把该扫的地方一遍到位。
现有系统往往做不到这么省心:要么依赖很重的人工先验(例如框 3D 范围、手工分割、预设飞行样式),要么在复杂几何和遮挡面前效率和完整性一起掉线。
香港科技大学沈劭劼团队、南方科技大学周博宇团队、中山大学等机构联合发布FlyCo:把基础模型(Foundation Models)的“常识”和“语义理解”真正接进无人机系统里,形成一个感知-预测-规划的闭环,让无人机从“按模板飞”变成“边理解边推演边规划”,实现仅靠文本 + 少量 2D 标注就能在未知开放环境里完成目标结构的自动三维扫描。
FlyCo 原文覆盖内容较广,涉及完整的系统设计、训练数据构建与多组真实/仿真实验。受篇幅限制,本文仅对其核心思路与主要结论进行概括性解读,无法逐点展开所有技术细节。若希望深入理解各模块实现与实验设置,建议阅读论文原文(https://arxiv.org/pdf/2601.07558)以获取完整信息。

图1|FlyCo 概览:把“低门槛提示”变成无人机的自动扫描行动。(A) FlyCo 是一个由基础模型赋能的空中自主系统,面向开放环境的“指定目标结构”三维扫描。它把基础模型自带的知识与无人机的自主飞行能力结合起来,把用户的文字描述、少量视觉标注等低成本提示,转化为可执行的飞行动作,在未知环境中高效完成目标扫描。整个过程由“感知-预测-规划”的闭环驱动,不依赖人工介入,也不需要环境先验。(B–C) 对比之下,现有范式往往依赖更重的人类先验与参与,且一旦扫描不完整就容易触发反复补飞,导致开放世界场景中的实用性、效率和适应性都受限
01 无人机扫描如何“以点概面”
FlyCo 的出发点很直白:开放世界里,目标结构常常只露出一角,周围还很杂。你如果只靠当前视角做决策,就容易在“局部看起来合理”的轨迹里绕圈,最后既耗时又漏扫。
所以他们把系统做成一个闭环:先把“你想扫什么”在真实世界里对齐出来(感知),再把“没看见的部分”补成一个可用的全局结构猜测(预测),最后在这个全局猜测上做覆盖规划,同时保持实时避障(规划)。这三步不是串行跑完就结束,而是一直循环更新,直到系统判断目标表面覆盖得够了再结束任务。

图2|FlyCo 系统架构:感知-预测-规划闭环,边飞边更新直到任务结束。给定用户提示后,系统持续循环运行:基础模型驱动的感知模块从连续的 RGB-LiDAR 流数据中在 2D/3D 空间“锚定”目标;多模态预测模块基于局部观测补全目标表面;规划器异步执行两层规划,在预测几何上做全局覆盖规划,同时进行实时局部轨迹重规划。所有模块不断更新,直到系统判定扫描完成并终止任务
02 技术亮点
把“语义目标”钉进 2D/3D 感知里
FlyCo 不是让操作者先给一个 3D 框或做手工 3D 分割,而是把文本与少量 2D 标注当作“低门槛提示”,在飞行过程中持续做目标的 2D/3D 分割与跟踪,保证系统一直围绕“语义上的目标结构”行动。
论文里也点名了:对非凸、形状不规则的目标,3D 框天然会过度包围,带来无谓航程;而 FlyCo 的语义锚定能从机制上减少“扫无关区域”的浪费

图3|多模态表面预测器:先分别编码,再交替融合,最后输出补全形状。预测器先用基础模型分别对各模态信息进行编码,再通过交替注意力机制融合不同来源的特征,最终解码得到完整的目标形状;训练时同时约束“与已观测部分一致”和“整体补全质量”,用部分一致与补全两类 Chamfer 距离损失联合监督
边飞边“补全结构”,给规划一个持续更新的全局视野
作者强调预测模块做的是“部分观测到完整几何”的推断:把测到的几何当作锚点,再融合视觉/文本线索,把未观测区域补成一个度量一致的表面预测,用来给后续覆盖规划提供全局上下文。
并且为了适配不同尺度目标,他们在推断时做自适应“加密”(densification),同时用“部分表面一致性”的正则项去约束预测别飘,强调零样本泛化与时间稳定性。

图4|推理阶段的几何加密:从稀疏补全到可用网格。系统先得到较稀疏的补全结果,再按照物理尺度做级联上采样,自适应提高几何分辨率,最后提取封闭(watertight)的网格模型,供后续覆盖规划使用
“全局覆盖 + 局部高频避障”的双层规划节奏
FlyCo 的规划是分层的:上层基于预测到的目标结构做一致性友好的全局覆盖规划,下层沿着全局路径做高频局部重规划,以应对新出现的障碍,同时尽量不牺牲覆盖完整性。
论文给了计算节奏的直观描述:感知在机载端以几 Hz 运行,预测在地面站提供亚秒级结构前瞻,全局规划每次几百 ms,局部规划每次几十 ms,这种异步设计让系统既“想得远”,也“躲得快”。

图5|“预测感知”的分层规划:全局覆盖想得远,局部轨迹躲得快。全局线程基于预测网格生成视点集合,并并行求解非对称旅行商问题(ATSP)得到一条全局覆盖路径缓冲;同时局部线程并发生成最短时间、可行且安全的局部轨迹,在保证目标覆盖的前提下进行实时避障与跟踪执行
03 实验与表现
真实世界:四个野外场景,靠“低门槛提示”完成自动扫描
论文做了四类 in-the-wild 目标:连接建筑的拱桥、校园里的大礼堂、被树木遮挡的城堡门、密林中的红砖建筑,强调系统能在未知场景里完成目标扫描。
硬件部署上,他们用改装 DJI M30 四旋翼,机载 Orin NX,配 Livox Mid360 激光雷达与云台相机;预测算力放在地面笔记本,通过 4G 网络通信,理由是预测“算得重但不需要极低延迟”,实测亚秒级即可。

图6|精细场景理解带来“只围着目标扫”的自适应扫描。(A) 目标:连接两栋建筑的拱桥;(B) 用户输入的文本与少量点击标注;(C) 从左到右为三个时刻的结果:目标分割更精准、表面预测更合理,即使面对相似纹理与结构连通带来的干扰也能稳定工作;(D) 飞行只围绕目标结构执行扫描,并给出对应的真实飞行画面 D(1–3);(E) 最终重建结果聚焦于拱桥本体,细节更完整、更干净
仿真基准:更省时间、更高完整性、更稳
在 AirSim 的四个复杂未见场景里(风车、教堂、宝塔、城堡),每个场景重复 20 次,FlyCo 平均任务时间 225–364s,而对比方法大多在 400–1000s;同时 FlyCo 的信息完整性维持在 93.8%–96.5%。

图7|仿真基准结果汇总(每个场景 20 次重复)。对每个场景报告平均值(Avg)、标准差(Std)、最大值(Max)与最小值(Min)。其中 Extent 表示目标结构的三维尺寸(长×宽×高,单位:米)
可靠性上,FlyCo 79/80 次成功(其中三个场景 20/20),而基线会因为碰撞或超时出现非忽略失败。
更关键的是,这些提升并不是“牺牲人力换来的”:FlyCo 只需要文本提示 + 稀疏 2D 标注;而对比范式往往还需要 3D 框、手工 3D 分割或预设飞行模式等更重的先验输入。

图8|杂乱环境里的高效且安全扫描:目标对齐更准,避障更稳。(A,D) 用户用“文本 + 少量点击”指定城堡门与红砖建筑;(B) 城堡门任务:从左到右依次展示目标分割、补全后的完整表面、关键静态障碍与动态干扰(如细电线、行人、相邻结构、林木等),以及对应的三维目标分割(彩虹色)与实际执行轨迹;(C,K) 两个任务的高保真重建效果;(E) 红砖建筑场地概览;(F) 无人机尺寸说明(半径 0.55 m);(G) 红砖建筑任务:分割与在线表面预测始终与局部观测保持一致;(H) 飞行过程中与障碍物的最小距离随时间变化,始终高于碰撞阈值(等于无人机半径,红色虚线);(I(1–3)) 关键飞行瞬间截图,展示在狭窄空间中的安全穿行(例如靠近墙体与植被的约 2.5 m 缝隙);(J) 环绕红砖建筑的完整飞行结果
04 总结与延伸
FlyCo 的价值不止是“把某个模型接到无人机上”,而是把基础模型的能力落成了一种更像机器人系统的形态:感知负责把语义目标对齐到真实世界,预测负责把局部观测变成全局结构前瞻,规划负责把前瞻变成可执行且安全的飞行行为。
如果说过去的自动扫描更像“按图走”,FlyCo 更像“边看边想边绕”。问题也随之变得更有趣:当未来基础模型更强、更轻、更便宜时,这类闭环会不会成为户外机器人“默认配置”?
论文标题:FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments
论文作者:Chen Feng, Guiyong Zheng, Tengkai Zhuang, Yongqian Wu, Fangzhan He, Haojia Li, Juepeng Zheng, Shaojie Shen, Boyu Zhou
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)