论文笔记-Onboard dynamic-object detection and tracking for autonomous robot navigation with RGB-D camera

本文提出一种基于RGB-D相机的轻量级三维动态障碍物检测与跟踪方法(DODT)，专为资源受限的机器人设计。系统采用三种计算效率高的非学习型检测器(U-depth、DBSCAN、YOLO-MAD)进行集成检测，通过特征匹配和IOU验证实现鲁棒识别，并引入可选学习模块增强性能。跟踪模块提出基于特征向量的匹配方法和恒加速度卡尔曼滤波，通过融合位置、尺寸和点云统计特征，有效解决目标混淆问题，在保证实时性的

A pear tree open static

1121人浏览 · 2025-11-06 11:27:55

A pear tree open static · 2025-11-06 11:27:55 发布

阅读笔记-1

“Onboard dynamic-object detection and tracking for autonomous robot navigation with RGB-D camera” )

粗略阅读

传感器：RGB-D 相机（获取彩色与深度）

现状：动驾驶领域已经有大量研究探索三维目标检测问题，但这些方法普遍依赖高密度点云数据（来自体积大、功耗高的 LiDAR传感器），并且其学习型数据处理算法计算开销极大，

创新：提出一种基于 RGB-D相机的轻量级三维动态障碍物检测与跟踪方法（DODT），专为低功耗、计算资源受限的机器人设计。将多个计算量小但精度低的检测器组合起来，实现实时且高精度的障碍物检测；提出了一种基于特征的关联与跟踪方法，利用点云的统计特征来防止匹配错误，系统还包含一个可选的、辅助性的学习型检测模块YOLO/PointNet，用于增强障碍物的检测距离和动态目标识别能力

检测模块

包含非学习型部分与学习型部分。

非学习部分：利用深度图像和两个非学习检测器来进行通用障碍物检测。
学习部分：使用对齐的 RGB-D 图像进行直接动态障碍物检测，并与非学习部分结果融合

三种低精度但高效率的检测器：

U-depth 检测器

U-depth 图生成：
将深度图像按列计算深度直方图形成 “U-depth 图”。
直观上可以理解为相机视角的“俯视图（top-down view）”。
线条分组（Line Grouping）：
在 U-depth 图上分组线条以获得障碍物在图像平面的宽度 $w_i$ 和厚度 $t_i$ 。
深度连续性检测（Depth Continuity Search）：
在原始深度图上检查深度连续性，以获取障碍物的高度 $h_i$ 。
三维重建：
将 2D 检测框投影到三维相机坐标系，再通过坐标变换得到世界坐标系下障碍物的位置与尺寸。

DBSCAN 检测器:或许可以用到

功能概述：
基于点云的聚类算法。

使用深度图生成点云；
应用体素滤波（voxel filter）去除噪声；
使用 DBSCAN 聚类提取每个障碍物的点云；
为每个簇生成轴对齐边界框。

YOLO-MAD 检测器

功能概述：
用于识别障碍物类型与远距离动态障碍检测。
基于轻量级 YOLOFastestDet（CPU级实时），扩展到 3D。

流程：

在 RGB 图像中检测 2D 边界框；
在对应的深度图区域提取深度信息；
通过 MAD（Median Absolute Deviation，中位绝对偏差） 计算障碍物厚度，剔除异常深度值；
将深度范围内的点三角化得到 3D 包围框。

公式核心：
$median(|d_i - \tilde{d}|)$ ，
$S_{MAD} = \{d_i | \tilde{d} - n·MAD ≤ d_i ≤ \tilde{d} + n·MAD\}$ 。

理解：
MAD 方法相当于鲁棒的深度滤波，避免背景和噪声影响。
由于仍较耗算力，YOLO-MAD 是可选辅助模块。

集成检测

结合三种检测结果以提升鲁棒性与精度，消除单一传感器的噪声误差。
在这里插入图片描述

问题1：使用深度图获得的点云存在误差吧

距离越远、表面越光滑或透明，误差越大
深度像素 $(u, v)$ 转换为点云 $(x, y, z)$ 时需用到内参矩阵 $K$

问题2：集成检测没看懂

```
三个检测器都会输出3D框
```

IOU 都超过一定阈值（例如0.5）→ 才认为它们确实检测到的是同一个障碍物
for 每个bd1 in Bd1:

   找出 Bd2 中与之 IOU 最大的框 bmatch1

   再反查：在 Bd1 中找 bmatch1 的 IOU 最大框 bmatch2

   若 bmatch2 == bd1 且 IOU > 阈值:

    fuse(bd1, bmatch1)

位置 (center)：取平均+尺寸 (width, height, depth)：取最大（保守做法，宁大勿漏）

跟踪模块

使用经过优化的三维边界框（3D bounding boxes）及历史数据来估计障碍物状态（位置、速度、加速度等）

通过障碍物特征向量匹配不同时间帧的障碍物：使用形状、尺寸、点云统计量，因此不易混淆“人和墙”这类误匹配

$feat(O_i) = [pos(i), dim(i), len(i), std(i)]$

并计算相似度：

$sim(O_i, O_j) = e^{-||feat(O_i) - feat(O_j)||^2/2}$

若相似度大于阈值，则认为是同一障碍物。
此外，使用预测位置代替旧位置以提高匹配稳定性

问题3：中心距离匹配会误把“人”匹配到“墙”,为什么

中心距离匹配只看两个框中心点的欧氏距离

假设上一帧的人在点A，下一帧他走到点B，而B离墙中心C更近：
→ 中心距离法会误认为“墙”是“人”的延续。

问题4，下面分别是什么

$feat(O_i) = [pos(i), dim(i), len(i), std(i)]$

每个分量含义如下👇：

pos(i)：障碍物中心位置 $(x, y, z)$
dim(i)：障碍物三维尺寸（宽、高、深）
len(i)：点云中点的数量（反映大小或密度）
std(i)：点云的标准差（反映形状复杂度或散布）

即：它综合考虑位置 + 尺寸 + 点云特性。

问题5：下面为什么这么设计

$sim(O_i, O_j) = e^{-\|feat(O_i) - feat(O_j)\|^2 / 2}$

越相似 ⇒ 差距越小 ⇒ 指数项接近 1；
越不同 ⇒ 差距越大 ⇒ 指数项趋近 0。
墙与人的位置可能相近，但尺寸、std 差距巨大；因此 sim 值很低，不会被错误匹配

恒加速度卡尔曼滤波（Constant-Acceleration Kalman Filter）

状态向量：包含位置、速度、加速度

$\dot{x}, \dot{y}, \ddot{x}, \ddot{y}]^T$

状态方程：

$X_{t|t-1} = A X_{t-1} + Q$

测量方程：

$Z_t = H X_t + R$

与传统的恒速度模型不同，此模型允许速度变化（更准确），计算量仍可接受。

问题6：恒加速度卡尔曼滤波是干啥用的

1️⃣ 状态定义–目标的状态向量:位置 §、速度 (v)、加速度 (a) 三个分量

2️⃣ 状态转移模型（假设加速度恒定）–离散时间步长 Δt 进行状态更新：

$x_{t+1} = F x_t + w_t$

论文里面

其中 $w_t$ 是过程噪声， $F$ 是状态转移矩阵：

$\begin{bmatrix} 1 & 0 & Δt & 0 & 0.5Δt^2 & 0 \\ 0 & 1 & 0 & Δt & 0 & 0.5Δt^2 \\ 0 & 0 & 1 & 0 & Δt & 0 \\ 0 & 0 & 0 & 1 & 0 & Δt \\ 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix}$

这样目标的位置和速度会根据恒定加速度模型进行预测

3️⃣ 观测模型

检测器只能观测到目标的位置（中心点坐标）：

$z_t = H x_t + v_t$

其中大部分情况 $\begin{bmatrix} 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 & 0 \end{bmatrix}$ ，
$v_t$ 是观测噪声。

4️⃣ 预测 + 校正（标准卡尔曼步骤）

预测阶段

$\hat{x}_{t|t-1} = F \hat{x}_{t-1}$

$P_{t|t-1} = F P_{t-1} F^T + Q$

更新阶段

计算卡尔曼增益 K_t

$K_t = P_{t|t-1} H^T (H P_{t|t-1} H^T + R)^{-1}$

含义：

K 决定“信测量多少、信预测多少”；
P 大 / R 小 → K 大（信测量多）；
P 小 / R 大 → K 小（信预测多）。:

用测量更新状态

$\hat{x}_t = \hat{x}_{t|t-1} + K_t (z_t - H\hat{x}_{t|t-1})$

含义：

括号里 $(z_t - H\hat{x}_{t|t-1})$ ：叫残差（innovation），表示“测量与预测的差”；
$K_t$ ：调节信任度；
$x^t$ ：校正后的最优估计。

更新协方差
$P_t = (I - K_t H) P_{t|t-1}$

论文实际使用：

1️⃣ 状态定义

$\dot{x}, \dot{y}, \ddot{x}, \ddot{y}]^T$

也就是障碍物在全局坐标下的：

2️⃣ 状态转移模型

状态转移方程（预测模型）

$X_{t|t-1} = A X_{t-1} + B u_{t-1} + Q$

其中：

$u = 0$ ：没有控制输入
$Q$ ：过程噪声协方差矩阵，代表模型的不确定性
$A$ ：状态转移矩阵，由“恒加速度”模型推导而来
状态转移矩阵 A

$\begin{bmatrix} 1 & 0 & \delta t & 0 & \frac{1}{2}\delta t^2 & 0 \\ 0 & 1 & 0 & \delta t & 0 & \frac{1}{2}\delta t^2 \\ 0 & 0 & 1 & 0 & \delta t & 0 \\ 0 & 0 & 0 & 1 & 0 & \delta t \\ 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix}$

这是根据“匀加速度运动方程”推导的：

$x_t = x_{t-1} + v_{t-1}\delta t + \frac{1}{2}a_{t-1}\delta t^2$

$v_t = v_{t-1} + a_{t-1}\delta t$

$a_t = a_{t-1}$

3️⃣ 观测模型

测量向量 $Z_t$ 定义为：

$Z_t = H X_t + R$

其中：

$H = I$ ：单位矩阵
意味着我们能直接观测到全部状态分量（位置、速度、加速度）。
实际上，这里的速度和加速度是由点云检测到的障碍物位置序列计算出来的。
速度、加速度的测量计算

$V_t = \frac{P_t - P_{t-1}}{\delta t}, \quad A_t = \frac{V_t - V_{t-1}}{\delta t}$

为了让观测更平滑，论文提到：会使用多个时间差 $\delta t$ 的数据平均后求 $V_t$ 、 $A_t$ 。

4️⃣ 预测 + 校正（标准卡尔曼步骤）
同上
在这里插入图片描述

识别模块

根据状态变化与跟踪历史，将障碍物分类为静态（Static）或动态（Dynamic）

识别过程分两步：

速度阈值判定：
若障碍物中心速度 $V_{center} < T_{vel}$ ，判为静态。
点云投票法（Voting）：
对障碍物点云中的每个点计算对应时刻的速度 $V_i^{vote}$ ：
- 若 $V_i^{vote} > T_{vote}$ ，该点投票为“动态”；
- 若动态点比例 $N_{vote}/N_{valid} > T_{ratio}$ ，则障碍物判为“动态”。

剔除无效点条件：

速度方向偏差过大（>90°）；
在上一帧视野外（FOV外）的新点。

若启用 YOLO-MAD，其分类结果直接覆盖此识别。

问题7：什么是点云投票法

基本思路：

对每个障碍物的点云，记录当前帧 $t_n$ 与过去某帧 $t_{n-k}$ 的对应点；
每个点计算它的运动速度 $V_i^{vote}$ ；
如果这个速度大于某个阈值 $T_{vote}$ ，该点就“投票”为动态；
若：

$\frac{N_{vote}}{N_{valid}} > T_{ratio}$

→ 认为整个障碍物是动态的。

问题8：部分遮挡时如何过滤新出现的点防止错误识别动态是什么意思

场景：
机器人逐渐靠近一个半遮挡的障碍物（例如桌子后面露出一角）。

在前一帧 t₁，只看到“红色点”；
到后一帧 t₂，机器人移动后能看到完整物体；
中心点会“跳动”（因为更多点出现）；
→ 系统误以为这个物体动了。

解决方法：
过滤“新出现的点”：

判断在 t₁ 时，这些点是否在视野内（FOV）可见；
若之前根本没看到（被遮挡），那这些点不是运动引起的，而是视角变化带来的“假运动”；
因此在投票中剔除这些点。

📊 论文图示讲解（Figures）

在这里插入图片描述

总结

以上就是今天要讲的内容，本文仅仅简单介绍了论文

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI 原生营销矩阵系统：智能线索管理与私域转化技术实现

本文从工程实践角度，深入拆解了 AI 原生营销矩阵系统的智能线索管理系统与私域转化闭环技术，详细讲解了跨平台消息统一接入、微信抖音消息互通、智能客服机器人、线索智能分配与跟进等核心技术的实现细节。通过构建完善的智能线索管理体系，能够有效解决公域获客与私域转化之间的技术鸿沟，提高客户响应速度和线索转化率，帮助企业实现营销效果的最大化。在未来，随着 AI 技术的不断发展，智能线索管理系统将变得更加智能

DAMO开发者矩阵

工业机器人RobotStudio搬运项目作业

创建工具、工件坐标、载荷三类程序数据；完成 RAPID 程序调试与仿真，实现机器人自动拾取、搬运、放置、计数、满载复位全流程作业。在 RobotStudio 6.08 中完成太阳能薄板搬运工作站的解包、系统重置、I/O 配置、程序数据创建、目标点示教、RAPID 程序编写与调试，实现机器人从流水线拾取太阳能薄板并搬运至暂存盒的循环自动作业，完成工件周转至下一工位处理。熟练完成 I/O 配置、程序数