无人机视觉语言导航从入门到精通（二）：技术全景图

本文系统梳理了无人机视觉语言导航（UAV-VLN）的技术全景图，涵盖计算机视觉、自然语言处理、强化学习和机器人学四大核心领域。在计算机视觉方面，重点介绍了图像特征提取、目标检测、语义分割和深度估计等关键技术；自然语言处理部分则详细解析了文本表示、序列建模以及注意力机制等重要方法。文章还分析了这些技术在VLN系统中的相互关系和作用机制，为读者构建了完整的技术知识框架。通过本文，读者可以全面了解VLN

Mark Zero

938人浏览 · 2025-12-28 00:06:05

Mark Zero · 2025-12-28 00:06:05 发布

无人机视觉语言导航从入门到精通（二）：技术全景图

摘要

无人机视觉语言导航（UAV-VLN）是一个典型的多学科交叉领域，它融合了计算机视觉、自然语言处理、强化学习、机器人学等多个技术方向的核心成果。本文将系统梳理 VLN 所涉及的各个技术领域，分析它们之间的相互关系，并为读者提供清晰的技术知识图谱和学习路线建议。理解这些基础技术及其在 VLN 中的作用，是深入学习后续内容的必要前提。

关键词：计算机视觉、自然语言处理、强化学习、机器人学、多模态学习、技术栈

一、引言

在上一篇文章中，我们介绍了视觉语言导航的基本概念和问题定义。我们了解到，VLN 要求智能体同时具备语言理解、视觉感知和导航决策三方面的能力。这些能力的实现，依赖于多个人工智能子领域的技术支撑。

本文将从宏观视角出发，绘制 VLN 的技术全景图。我们将逐一介绍各个相关技术领域的核心概念、关键方法，以及它们在 VLN 系统中所扮演的角色。通过本文的学习，读者将建立起对 VLN 技术栈的整体认知，为后续深入学习各个模块奠定基础。

二、技术全景总览

2.1 VLN 技术栈架构

VLN 系统的技术栈可以从纵向和横向两个维度进行划分。纵向维度按照处理流程划分为感知层、理解层、决策层和执行层；横向维度按照学科领域划分为视觉、语言、学习和控制四大模块。

2.2 核心技术领域

VLN 涉及的核心技术领域及其关系可以用下图表示：

下面我们将逐一介绍这些技术领域的核心内容。

三、计算机视觉

计算机视觉（Computer Vision, CV）是研究如何使计算机从图像或视频中获取信息的学科。在 VLN 系统中，计算机视觉负责处理无人机摄像头采集的图像，提取环境信息，为导航决策提供视觉依据。

3.1 图像特征提取

特征提取是计算机视觉的基础任务，其目标是将原始图像转换为更加紧凑、更具语义的表示形式。

传统特征提取方法包括：

SIFT（Scale-Invariant Feature Transform）：提取对尺度和旋转具有不变性的局部特征点
ORB（Oriented FAST and Rotated BRIEF）：一种高效的特征点检测和描述算法
HOG（Histogram of Oriented Gradients）：通过统计图像局部区域的梯度方向直方图来描述图像

深度学习特征提取方法以卷积神经网络（Convolutional Neural Network, CNN）为代表。CNN 通过卷积操作自动学习图像的层次化特征表示。设输入图像为 $\in \mathbb{R}^{H \times W \times C}$ ，卷积操作可表示为：

$F_{i,j,k} = \sigma \left( \sum_{m,n,c} W_{m,n,c,k} \cdot I_{i+m, j+n, c} + b_k \right)$

其中， $W$ 为卷积核权重， $b$ 为偏置， $σ\sigma$ 为激活函数。

经典的 CNN 架构包括：

模型	年份	层数	特点
AlexNet	2012	8	首次在 ImageNet 上取得突破
VGG	2014	16/19	使用小卷积核堆叠
ResNet	2015	50/101/152	引入残差连接解决梯度消失
EfficientNet	2019	可变	复合缩放策略

在 VLN 中，预训练的 CNN 模型常被用作视觉特征提取器，将输入图像编码为固定维度的特征向量。

3.2 目标检测与识别

目标检测（Object Detection）旨在识别图像中存在的物体，并给出其位置边界框。在 VLN 中，目标检测用于识别导航指令中提到的地标、物体等。

目标检测方法可分为两类：

两阶段方法：先生成候选区域，再对候选区域分类

R-CNN 系列：R-CNN、Fast R-CNN、Faster R-CNN
特点：精度高，速度相对较慢

单阶段方法：直接在特征图上预测物体类别和位置

YOLO 系列：YOLOv1 至 YOLOv8
SSD（Single Shot MultiBox Detector）
特点：速度快，适合实时应用

目标检测的输出通常表示为：

${(c_i, x_i, y_i, w_i, h_i, p_i)\}_{i=1}^{N}$

其中， $c_i$ 为类别， $x_i, y_i, w_i, h_i)$ 为边界框参数， $p_i$ 为置信度。

3.3 语义分割

语义分割（Semantic Segmentation）为图像中的每个像素分配一个语义类别标签。与目标检测相比，语义分割提供了更加精细的场景理解。

经典的语义分割网络包括：

FCN（Fully Convolutional Networks）：首个端到端的语义分割网络
U-Net：编码器-解码器结构，广泛用于医学图像分割
DeepLab 系列：引入空洞卷积和条件随机场

语义分割的输出为分割掩码 $\in \mathbb{R}^{H \times W}$ ，其中 $M_{i,j}$ 表示像素 $(i, j)$ 所属的语义类别。

3.4 深度估计

深度估计（Depth Estimation）旨在从图像中推断场景的三维结构信息。对于无人机导航而言，深度信息对于避障和路径规划至关重要。

单目深度估计从单张图像推断深度，是一个病态问题（ill-posed problem），通常通过深度学习方法解决。典型模型包括 MonoDepth、MiDaS 等。

双目深度估计利用双目视差原理计算深度。设两个相机的基线距离为 $b$ ，焦距为 $f$ ，视差为 $d$ ，则深度 $Z$ 可由下式计算：

$\frac{b \cdot f}{d}$

深度传感器如 RGB-D 相机、LiDAR 等可直接获取深度信息，但在无人机平台上受到体积和功耗的限制。

四、自然语言处理

自然语言处理（Natural Language Processing, NLP）是研究计算机如何理解和生成人类语言的学科。在 VLN 中，NLP 技术负责解析用户的导航指令，提取其中的语义信息。

4.1 文本表示

文本表示是 NLP 的基础问题，其目标是将离散的文本符号转换为连续的向量表示。

词袋模型（Bag of Words, BoW）：将文本表示为词频向量，忽略词序信息。

词向量（Word Embedding）：将每个词映射到一个低维稠密向量空间。经典方法包括：

Word2Vec：通过预测上下文词（Skip-gram）或由上下文预测中心词（CBOW）来学习词向量
GloVe：基于全局词共现矩阵的分解方法

词向量的一个重要性质是语义相似的词在向量空间中距离较近。例如：

$\text{vec}(\text{king}) - \text{vec}(\text{man}) + \text{vec}(\text{woman}) \approx \text{vec}(\text{queen})$

句子表示：将整个句子编码为向量。常用方法包括：

词向量的平均或加权平均
循环神经网络（RNN）的最终隐状态
Transformer 编码器的输出

4.2 序列建模

导航指令是一个词序列，理解指令需要对序列进行建模。

循环神经网络（Recurrent Neural Network, RNN）：通过循环连接处理序列数据。设输入序列为 $(x1,x2,…,xT)(x_1, x_2, \ldots, x_T)$ ，RNN 的计算过程为：

$h_t = \sigma(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$

其中， $h_t$ 为时刻 $t$ 的隐状态， $W_{hh}$ 、 $W_{xh}$ 为权重矩阵。

RNN 存在梯度消失和梯度爆炸问题，**长短期记忆网络（Long Short-Term Memory, LSTM）**通过引入门控机制解决这一问题：

$\begin{aligned} f_t &= \sigma(W_f [h_{t-1}, x_t] + b_f) \\ i_t &= \sigma(W_i [h_{t-1}, x_t] + b_i) \\ o_t &= \sigma(W_o [h_{t-1}, x_t] + b_o) \\ \tilde{c}_t &= \tanh(W_c [h_{t-1}, x_t] + b_c) \\ c_t &= f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ h_t &= o_t \odot \tanh(c_t) \end{aligned}$

其中， $f_t$ 、 $i_t$ 、 $o_t$ 分别为遗忘门、输入门和输出门， $c_t$ 为细胞状态。

4.3 注意力机制与 Transformer

**注意力机制（Attention Mechanism）**允许模型在处理序列时动态关注不同位置的信息。给定查询 $Q$ 、键 $K$ 和值 $V$ ，缩放点积注意力的计算公式为：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$

其中， $d_k$ 为键向量的维度，除以 $dk\sqrt{d_k}$ 是为了防止点积值过大导致 softmax 梯度消失。

Transformer完全基于注意力机制构建，摒弃了循环结构。其核心组件包括：

多头注意力（Multi-Head Attention）：并行计算多组注意力，捕获不同子空间的信息
位置编码（Positional Encoding）：为序列中的每个位置添加位置信息
前馈网络（Feed-Forward Network）：对每个位置独立进行非线性变换

Transformer 的并行计算特性使其训练效率远高于 RNN，已成为 NLP 领域的主流架构。

4.4 预训练语言模型

预训练语言模型（Pre-trained Language Model）通过在大规模语料上进行自监督学习，获得通用的语言理解能力，然后在下游任务上进行微调。

BERT（Bidirectional Encoder Representations from Transformers）：采用掩码语言模型（Masked Language Model, MLM）目标进行预训练。随机遮盖输入中的部分词元，让模型预测被遮盖的词。

GPT 系列（Generative Pre-trained Transformer）：采用自回归语言模型目标，预测下一个词。GPT-3、GPT-4 等大语言模型展现出强大的语言理解和生成能力。

在 VLN 中，预训练语言模型被用于编码导航指令，提取丰富的语义特征。

五、强化学习

强化学习（Reinforcement Learning, RL）研究智能体如何在与环境的交互中学习最优策略。VLN 本质上是一个序列决策问题，强化学习为其提供了自然的建模框架。

5.1 基本概念

强化学习的核心要素包括：

智能体（Agent）：学习和决策的主体，在 VLN 中即无人机
环境（Environment）：智能体所处的外部世界
状态（State）：对环境的描述，记为 $\in \mathcal{S}$
动作（Action）：智能体可执行的操作，记为 $\in \mathcal{A}$
奖励（Reward）：环境对智能体动作的反馈，记为 $\in \mathbb{R}$
策略（Policy）：从状态到动作的映射，记为 $π(a∣s)\pi(a|s)$

5.2 价值函数与贝尔曼方程

状态价值函数 $Vπ(s)V^\pi(s)$ 表示从状态 $s$ 出发，遵循策略 $π\pi$ 所能获得的期望累积奖励：

$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s \right]$

动作价值函数 $Qπ(s,a)Q^\pi(s, a)$ 表示在状态 $s$ 执行动作 $a$ ，然后遵循策略 $π\pi$ 所能获得的期望累积奖励：

$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right]$

价值函数满足贝尔曼方程（Bellman Equation）：

$V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ r(s,a,s') + \gamma V^\pi(s') \right]$

5.3 策略梯度方法

策略梯度方法直接对策略进行参数化，通过梯度上升优化策略参数。设策略为 $πθ\pi_\theta$ ，优化目标为最大化期望累积奖励：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t r_t \right]$

策略梯度定理给出了目标函数梯度的计算方式：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t \right]$

其中， $Gt=∑k=tTγk−trkG_t = \sum_{k=t}^{T} \gamma^{k-t} r_k$ 为从时刻 $t$ 开始的累积回报。

REINFORCE 算法直接使用上述梯度估计进行更新。为了降低方差，通常引入基线（Baseline）：

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (G_t - b(s_t)) \right]$

5.4 Actor-Critic 方法

Actor-Critic 方法结合了策略梯度和价值函数估计。Actor（演员）负责选择动作，Critic（评论家）负责评估动作的好坏。

优势函数（Advantage Function）定义为：

$A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)$

使用优势函数可以进一步降低梯度估计的方差：

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A^\pi(s_t, a_t) \right]$

经典的 Actor-Critic 算法包括 A2C、A3C、PPO（Proximal Policy Optimization）等。

5.5 模仿学习

**模仿学习（Imitation Learning）**从专家演示中学习策略，而非通过试错探索。在 VLN 中，专家演示通常是人类标注的最优导航轨迹。

**行为克隆（Behavioral Cloning, BC）**将模仿学习转化为监督学习问题，直接学习从状态到动作的映射：

$\mathcal{L}_{BC} = \mathbb{E}_{(s,a) \sim \mathcal{D}} \left[ -\log \pi_\theta(a|s) \right]$

其中， $D\mathcal{D}$ 为专家演示数据集。

行为克隆的问题在于分布偏移（Distribution Shift）：训练时智能体见到的状态分布与测试时可能不同，导致误差累积。**DAgger（Dataset Aggregation）**算法通过迭代收集专家反馈来缓解这一问题。

六、机器人学与控制

机器人学（Robotics）研究机器人的设计、构建和控制。对于无人机 VLN 系统，机器人学提供了定位、建图、路径规划和运动控制等核心能力。

6.1 坐标系与位姿表示

无人机的位姿（Pose）包括位置和姿态两部分。

位置通常在三维笛卡尔坐标系中表示为 $p = (x, y, z)^T$ 。

姿态可以用多种方式表示：

欧拉角（Euler Angles）：偏航角（Yaw） $ψ\psi$ 、俯仰角（Pitch） $θ\theta$ 、横滚角（Roll） $ϕ\phi$
旋转矩阵（Rotation Matrix）： $\in SO(3)$ ，满足 $R^T R = I$ ， $det⁡(R)=1\det(R) = 1$
四元数（Quaternion）： $q = (q_w, q_x, q_y, q_z)$ ，满足 $∥q∥=1\|q\| = 1$

不同表示方式之间可以相互转换。四元数避免了欧拉角的万向节锁（Gimbal Lock）问题，在实际系统中应用广泛。

6.2 同时定位与建图

**同时定位与建图（Simultaneous Localization and Mapping, SLAM）**是指智能体在未知环境中，同时估计自身位置和构建环境地图。

SLAM 问题可以表述为估计后验概率：

$P(x_{0:t}, m \mid z_{0:t}, u_{0:t})$

其中， $x_{0:t}$ 为轨迹， $m$ 为地图， $z_{0:t}$ 为观测， $u_{0:t}$ 为控制输入。

SLAM 方法可分为：

基于滤波的方法：如扩展卡尔曼滤波（EKF-SLAM）、粒子滤波（FastSLAM）
基于优化的方法：如图优化（Graph-based SLAM）、束调整（Bundle Adjustment）
视觉 SLAM：如 ORB-SLAM、LSD-SLAM、VINS-Mono

在 VLN 中，SLAM 提供了无人机的位置估计和环境地图，为路径规划提供基础。

6.3 路径规划

路径规划（Path Planning）是指在给定环境地图和起止点的情况下，计算一条从起点到终点的可行路径。

经典的路径规划算法包括：

A 算法*：在栅格地图上搜索最短路径，使用启发式函数加速搜索
Dijkstra 算法：A* 的特例，不使用启发式
RRT（Rapidly-exploring Random Tree）：基于随机采样的规划方法，适用于高维空间
人工势场法（Artificial Potential Field）：将目标点设为吸引势，障碍物设为排斥势

A* 算法的评估函数为：

$f (n) = g (n) + h (n)$

其中， $g (n)$ 为从起点到节点 $n$ 的实际代价， $h (n)$ 为从节点 $n$ 到目标的启发式估计。

6.4 运动控制

运动控制（Motion Control）负责将规划的路径转化为具体的控制指令，驱动无人机执行动作。

无人机的动力学模型通常表示为：

$\dot{x} = f(x, u)$

其中， $x$ 为状态向量（位置、速度、姿态等）， $u$ 为控制输入（电机转速或推力）。

常用的控制方法包括：

PID 控制：比例-积分-微分控制，简单有效
LQR（Linear Quadratic Regulator）：最优控制方法，最小化二次代价函数
MPC（Model Predictive Control）：基于模型的预测控制，可处理约束

在 VLN 系统中，高层的导航策略输出期望的位置或速度，底层的控制器负责跟踪执行。

七、多模态学习

多模态学习（Multimodal Learning）研究如何整合来自不同模态的信息。在 VLN 中，核心问题是如何融合视觉信息和语言信息。

7.1 融合策略

多模态融合的策略可以按照融合时机分为三类：

早期融合：在输入层面将不同模态的数据拼接，然后由统一的编码器处理
晚期融合：分别对每个模态进行编码，在高层特征层面进行融合
混合融合：在多个层次进行跨模态交互，实现更深入的信息整合

7.2 跨模态注意力

跨模态注意力（Cross-Modal Attention）是实现视觉-语言融合的有效方法。其核心思想是让一个模态的特征作为查询，去关注另一个模态的特征。

设视觉特征为 $\in \mathbb{R}^{n_v \times d}$ ，语言特征为 $\in \mathbb{R}^{n_l \times d}$ ，则语言引导的视觉注意力为：

$\text{Attn}(L, V, V) = \text{softmax}\left(\frac{L W_Q (V W_K)^T}{\sqrt{d}}\right) V W_V$

这种机制使得模型能够根据语言指令的语义，选择性地关注视觉场景中的相关区域。

7.3 视觉语言预训练模型

近年来，视觉语言预训练模型（Vision-Language Pre-trained Model, VLP）取得了显著进展。这些模型在大规模图像-文本配对数据上进行预训练，学习跨模态的对齐表示。

代表性的 VLP 模型包括：

模型	特点
CLIP	对比学习，图像-文本匹配
BLIP	引导式语言-图像预训练
LLaVA	将视觉编码器接入大语言模型
GPT-4V	多模态大语言模型，具备视觉理解能力

这些模型为 VLN 提供了强大的视觉-语言理解基础，是当前研究的热点方向。

八、技术学习路线建议

8.1 基础阶段

建议按以下顺序学习基础知识：

数学基础：线性代数、概率论、优化理论
机器学习基础：监督学习、神经网络、梯度下降
深度学习框架：PyTorch 或 TensorFlow 的使用

8.2 专项阶段

在掌握基础后，可以并行学习各个专项领域：

计算机视觉：CNN、目标检测、语义分割
自然语言处理：词向量、RNN/LSTM、Transformer、BERT
强化学习：MDP、策略梯度、Actor-Critic

8.3 进阶阶段

在专项知识扎实后，学习多模态和 VLN 专题：

多模态学习：融合策略、跨模态注意力、VLP 模型
VLN 方法：经典模型、数据集、评估指标
实践应用：仿真环境、真机部署

8.4 推荐资源

领域	推荐课程
计算机视觉	Stanford CS231n
自然语言处理	Stanford CS224n
强化学习	UC Berkeley CS285
机器人学	Stanford CS223a

九、小结

本文系统梳理了无人机视觉语言导航所涉及的核心技术领域，包括计算机视觉、自然语言处理、强化学习、机器人学和多模态学习。这些技术相互关联、互为支撑，共同构成了 VLN 系统的技术基础。

从技术架构角度看，VLN 系统可以分为感知层、理解层、决策层和执行层。计算机视觉负责视觉感知，NLP 负责语言理解，多模态学习实现两者的融合，强化学习提供决策框架，机器人学提供控制执行能力。

理解这些技术领域的核心概念和方法，是深入学习 VLN 的必要前提。在后续的文章中，我们将逐一深入讲解各个技术模块的细节，帮助读者建立完整的知识体系。

参考文献

[1] LeCun Y, Bengio Y, Hinton G. Deep Learning. Nature, 2015, 521(7553): 436-444.

[2] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. NeurIPS, 2017.

[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL, 2019.

[4] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. MIT Press, 2018.

[5] Thrun S, Burgard W, Fox D. Probabilistic Robotics. MIT Press, 2005.

[6] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models from Natural Language Supervision. ICML, 2021.

下篇预告

下一篇文章《无人机平台基础知识》将介绍无人机的硬件组成、传感器配置、坐标系定义、飞控系统等基础知识，帮助读者了解 VLN 的载体平台，为后续的实践应用做好准备。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI五大门派的底牌、命门与终极赌局

作为一个面向Web的动态3D高斯泼溅（3DGS）渲染器，Spark与当前最流行的Web3D框架Three.js集成，并基于Web GL2运行，因此只要有浏览器，无论是桌面端、iOS、Android，还是VR设备，都可以使用。比如Skild AI，它的核心产品“Skild Brain”，作为统一的机器人基础模型，其目标是让同一个“大脑”能够控制任何形态的机器人，无论是四足机器人、人形机器人还是桌面机